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Resume 



La mise en correspondance d'images est une etape cle pour un grand nombre 
d'applications de Vision par Ordinateur. Parmi toutes les approches existantes 
en niveau de gris, les methodes iconiques fournissent les resultats les plus pro- 
bants. Cependant, aucune d'entre elles ne tire profit de la richesse de la couleur, 
alors que leur essence meme est d'exploiter au maximum Finformation conte- 
nue dans le signal de I'image. La principale contribution des travaux developpes 
dans ce memoire consiste alors a mettre en place une methode de mise en cor- 
respondance plus robuste que celles rencontrees jusqu'a ce jour, en mettant 
en jeu Tinformation supplementaire que contiennent les images en couleur. 
Cette approche est innovante a plusieurs niveaux du processus d'appariement. 
Ainsi, nous presentons dans un premier traitement une classe de detecteurs de 
points d'interet specifique a la couleur. Deux nouveaux operateurs sont pro- 
poses, evalues et se revelent plus stables que les detecteurs jusqu'alors connus 
en niveau de gris. La couleur nous permet egalement de mettre en place une 
methode de caracterisation de ces points, locale et robuste. Celle-ci est basee 
sur les invariants difierentiels de Hilbert calcules seulement a Fordre un, grace a 
Fapport de Finformation couleur. EUe est done invariante aux transformations 
euclidiennes de Fimage ; nous proposons egalement une methode originale qui 
la rend invariante aux changements d'illumination. La forte combinatoire des 
methodes d'appariement classiques rendent ces dernieres inexploitables avec 
beaucoup de points. Nos travaux consistent en outre a integrer les primitives 
couleur ainsi caracterisees dans un nouveau processus de mise en correspon- 
dance, rendu efficace face aux grands ensembles de points par Futilisation de 
contraintes geometriques robustes quelles que soient les transformations de 
Fimage. 

Mots cles : 

Vision par Ordinateur, Images en couleur, Detecteurs de points d'interet. Inva- 
riants difierentiels, Constance des couleurs, Mise en correspondance. Optimisa- 
tion combinatoire. Geometric epipolaire. Geometric projective. Reconstruction 
tridimensionnelle, Transfert d'images. 



Abstract 



Image matching is a key step in many Computer Vision applications. Among 
the existing approaches for gray value images, iconic methods produce the most 
convincing results. However, none of these take advantage of the richness of 
color, although the very reason why they were developed is to exploit to the 
maximum the information contained in the image signal. The main contribu- 
tion of the work described in this thesis therefore consists in developing an 
image matching method that is more robust than those used up till now, by 
bringing into play the additional information contained in color images. This 
approach is innovative at several steps of the matching process. Indeed, we 
present, in a first treatment, a class of points of interest detectors specific to 
color. Two new operators are proposed, and assessed : they prove more stable 
than the detectors already used for gray value images. Color also allows us 
to define a new characterization method of these points, which is local and 
robust. This description is based on the Hilbert difierential invariants, which 
need only to be computed to order one, thanks to the contribution of the color 
information. So the description is invariant to Euclidean transformations of 
the image; in addition, we propose an original method to make it invariant 
to changes in illumination. The excessive combinatory of ordinary matching 
methods make them unexploitable when there are many points. In addition, 
the color primitives thus characterized are then integrated into a new matching 
scheme, which has been made efficient for big sets of point by using geometric 
constraints that are robust whatever the image transformations are. 

Keywords : 

Computer Vision, Color images. Points of interest detectors. Differential inva- 
riants. Color constancy. Matching, Combinatorial optimization, Epipolar geo- 
metry. Projective geometry, 3D reconstruction. Image transfer. 
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Introduction 



Les travaux presentes dans ce memoire s'inscrivent dans le domaine de la mise en 
correspondance d'images, encore appelee appariement. II s'agit d'un domaine tres vaste 
de la Vision par Ordinateur, qui a suscite et suscite encore de nombreuses recherches. II 
represente une etape cle pour des problemes varies, comme Tindexation d'images ou en- 
core la reconstruction de scenes tridimensionnelles. Dans ce contexte, les travaux realises 
jusqu'a present portent essentiellement sur Tanalyse et le traitement d'images definies en 
niveau de gris. L'approche qui est proposee dans cette these vise a mettre a profit I'infor- 
mation supplementaire disponible dans les images en couleur^ dans le but de developper 
des methodes d'appariement plus performantes. 

Cette introduction est decoupee comme suit : nous presentons en premier lieu les 
motivations qui nous ont amenes a etudier le probleme de la mise en correspondance dans 
un contexte d'images en couleur. Puis l'approche que nous proposons est presentee et 
situee par rapport aux methodes existantes. Nous donnons ensuite les contributions de 
notre travail, avant de terminer par un plan detaille du memoire. 

Motivations 

Avec I'engouement croissant pour les techniques du multimedia, les images sont de plus 
en plus presentes dans notre environnement. Ainsi ces dernieres annees, de nombreuses 
applications se sont developpees ou ont vu le jour autour de I'imagerie numerique. Citons 
notamment la recherche documentaire^ qui consiste a rechercher dans une banque d'images 
celle qui par exemple illustre un evenement politique; ou encore la synthese dHmages^ qui, 
par le biais de la realite virtuelle, permet a un utilisateur de visiter un musee, une boutique 
virtuel ou encore d'etre immerge dans les mondes imaginaires des jeux. Ces applications 
prennent une dimension particuliere avec les immenses potentialites qu'ofi"rent maintenant 
les autoroutes de I'information comme Internet. 

Toutes ces applications impliquent la resolution du probleme de la mise en correspon- 
dance d'images. En efi'et, la recherche documentaire necessite de trouver parmi plusieurs 
images celle qui correspond le mieux a un modele donne. Les applications derivees de la 
synthese d'images requierent certaines connaissances sur la geometric des cameras, qui, 
lorsqu'elle n'est pas disponible est calculable a partir de I'appariement d'images de cette 
scene. 



Introduction 



De nombreuses solutions ont ete proposees pour resoudre les differents problemes lies 
a la mise en correspondance. EUes presentent cependant de fortes limitations : la plu- 
part ne permettent pas d'apparier deux images dans des conditions generales, comme par 
exemple lorsque celles-ci different d'une importante rotation ou d'un changement d'illumi- 
nation. EUes sont egalement fortement combinatoires et ne parviennent pas a traiter des 
donnees volumineuses en un temps raisonnable. Enfin, Fensemble des approches proposees 
travaillent a partir d'images en niveau de gris et par consequent ne mettent pas a profit 
toute I'information que peut contenir une image en couleur. L'objet de cette these est de 
proposer une approche innovante par rapport a ces methodes et a leurs limitations. 

Parmi toutes les applications potentielles de la mise en correspondance d'images, 
nous nous interessons plus particulierement dans ce memoire aux techniques de trans- 
fert dHmages qui consistent a synthetiser une image de la scene tridimensionnelle sous un 
point de vue donne, a partir d'images acquises sous des points de vue differents. Autrement 
dit, ces approches cherchent a definir des techniques de traitement d'images et d'analyse 
de scenes permettant a partir de plusieurs scenes d'un environnement reel, acquises au 
prealable dans des conditions de prises de vues differentes (angles differents, distances 
differentes, etc), de recalculer les sequences d'images simulant les scenes que verraient une 
personne se deplagant dans cet environnement. 

Le transfert d'images a de nombreuses applications. II permet par exemple de simuler 
la visite virtuelle de lieux connus uniquement au travers de photos. Dans un futur proche, 
il pourra egalement permettre a un telespectateur de choisir son point de vue lorsqu'il 
regarde un match de basket a la television. La technique peut etre enfin vue comme une 
methode de compression video. En effet, il suffit de ne stocker que quelques vues d'une 
sequence d'images et de les accompagner d'une certaine information, le tenseur trifocal 
par exemple, permettant ainsi de recalculer les images manquantes. 

Des solutions au transfert d'images existent deja. Citons la plus connue du grand 
public : le morphing^ qui fournit effectivement des vues intermediaires, mais qui malheu- 
reusement ne respecte pas la geometrie de la scene. Ou encore le logiciel QuickTime VR 
d'Apple, qui permet de simuler la visite d'un lieu, a partir de la donnee de quelques photos. 
Signalons pour ce dernier que la technique employee requiert des conditions de prise de 
vue particulieres ainsi que I'aide de I'utilisateur pour certaines etapes du traitement. 

Approche proposee 

Les techniques dediees au transfert d'images necessitent une certaine connaissance de 
la geometrie des cameras qui ont fourni les images. Parfois les parametres optiques et la 
position des cameras sont connus. Neanmoins le plus souvent, on peut vouloir traiter des 
images qui proviennent d'une camera ou d'un appareil photo pour lesquels ces parametres 
ne sont pas disponibles, tout simplement parce celles-ci proviennent d'un film preexistant 
ou bien ont ete prises par des non specialistes. Dans tous ces cas, le systeme est dit 
non calibre^ et la seule information geometrique qui puisse etre obtenue se traduit par 
des relations lineaires entre cameras, comme par exemple la geometrie epipolaire lorsque 
Ton dispose de deux oculaires. C'est a ce niveau qu'interviennent les techniques de mise en 
correspondance d'images. II est en effet necessaire de faire correspondre un certain nombre 
de points entre les images pour estimer cette geometrie. 
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Figure 1 - Exemple d^appariement trinoculaire (mi,m2,m3) issu du point 3D M. 

L'appariement de points d'interet^ a fait Tobjet de nombreux travaux. Le lecteur peut 
se reporter a [Zhang, 1993] pour un etat de I'art. II consiste a determiner quelles sont les 
projections qui se correspondent dans les images, c'est-a-dire quels sont les points 2D qui 
representent les projections d'un meme point 3D, comme I'illustre la figure 1. L'approche 
que nous avons choisi d'explorer dans ce memoire repose sur une caracterisation exploi- 
tant directement Tinformation photometrique de Timage. Cette classe de methodes porte 
le nom de methodes iconiques et permet de caracteriser les points de Fimage de maniere 
locale. D'autres types d'approches existent, elles sont pour certaines basees sur une des- 
cription globale et ne sont par consequent robustes ni aux changements d'arriere-plan, ni 
aux occupations, ni aux principales transformations de Timage. D'autres methodes quan- 
tifient I'information par des grandeurs geometriques, comme les contours, les segments 
ou encore les regions. Elles sont toutefois issues de primitives symboliques, qui entrainent 
inevitablement une perte d'information, et surtout rendent la qualite de la mise en corres- 
pondance fortement dependante de la structure de Timage. Lorsque Ton se place dans le 
contexte du transfert d'images, l'approche iconique semble done etre la plus robuste et la 
mieux adaptee a la mise en correspondance. 

Toutes les methodes de mise en correspondance iconiques que nous avons rencontrees 
ont pour support les images en niveau de gris. A notre grand etonnement, aucune n'es- 
saie de tirer profit de la richesse des images en couleur, alors que leur essence meme est 
d'exploiter au maximum I'information contenue dans le signal de I'image [Luong, 1991]. 
La principale contribution de nos travaux consiste done a mettre en place une methode 
de mise en correspondance ayant pour support les images en couleur. 

Notre methode suit le schema suivant : 



1. Un traitement de bas niveau nous permet de traiter le signal et d'en extraire des 
points d'interet. De multiples detecteurs de points d'interet existent en niveau de gris, 
mais nous n'en connaissons aucun qui exploite I'information couleur. Nous proposons 
alors deux types de detecteurs, qui correspondent a une generalisation multi-spectrale 
des operateurs de Kitchen et Rosenfeld [Kitchen et Rosenfeld, 1982] et de Harris 
[Harris et Stephens, 1988; Bauckhage et Schmid, 1996] ; 

2. Puis il s'agit de determiner des grandeurs numeriques qui decrivent de maniere dis- 
criminante les primitives observees. Encore une fois, nous mettons a profit la richesse 



^Un point d'interet represente I'endroit de I'image ou le signal est riche en information. Cette notion 
est definie plus precisement dans la premiere partie de ce memoire. 
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du signal couleur pour developper une methode de caracterisation iconique robuste. 
Cette description est basee sur les invariants differentiels de Hilbert [Hilbert, 1890]. 
EUe etend a la couleur Fapproche proposee par Schmid dans sa these [Schmid, 1996] 
et apporte des precisions concernant la robustesse au bruit ; 

3. Enfin, la phase d'appariement proprement dite consiste a etablir une correspon- 
dance entre les points ayant des caracterisations similaires entre images. L'ajout de 
contraintes semi-locales rend la methode d'appariement plus robuste et son integra- 
tion dans un processus incremental nous permet de traiter efficacement de grands 
ensembles de points. 

A Tissue de cette derniere etape, nous avons a notre disposition un ensemble de points 
d'interet mis en correspondance entre plusieurs images. Pour des scenes rigides, cette 
donnee permet alors d'estimer la geometric reliant les cameras entre elles. Dans le cas 
d'un systeme binoculaire, il s'agit de la geometric epipolaire; dans le cas d'un systeme 
trinoculaire, on parle de trilinearites ou encore de tenseur trifocal. C'est seulement lorsque 
cette information geometrique est connue avec precision que Ton pent envisager de mettre 
en oeuvre les methodes de transfert d'images. 

Contributions 

La principale contribution de cette these est d'avoir developpe une methode de mise en 
correspondance plus robuste que celles rencontrees jusqu'a ce jour. Le succes de notre ap- 
proche s'explique essentiellement par le choix d'exploiter I'information couleur. A plusieurs 
etapes de notre traitement, celle-ci s'est en effet revelee posseder un contenu informatif 
plus fertile que les traditionnelles images en niveau de gris. En premier lieu, cette richesse 
nous a permis de mettre en place deux detecteurs de points d'interet plus stables que les 
meilleurs operateurs connus en niveau de gris, et ce pour les principales transformations de 
I'image^. Bien que d'approches differentes, ces deux detecteurs se sont reveles equivalents 
au travers des nombreux tests realises. Nous avons cependant denote quelques aspects 
favorisant I'un par rapport a I'autre selon les applications dans lesquelles ils sont integres. 

La couleur nous a egalement permis de simplifier considerablement la methode de ca- 
racterisation de points proposee par Schmid et basee sur les invariants differentiels de Hil- 
bert. L'approche traditionnelle impose en effet de calculer ces invariants jusqu'aux derivees 
troisiemes de I'image, pour que la description qui en decoule soit suffisamment discrimi- 
nante. II en resulte des calculs couteux et plutot sensibles au bruit. Au contraire, I'informa- 
tion couleur permet de reduire ce calcul aux derivees d'ordre un. La caracterisation ainsi 
obtenue est plus stable et bien plus simple a mettre en oeuvre. Comme pour les detecteurs, 
elle est robuste aux principales transformations de I'image. 

L'autre point fort de notre approche reside dans la mise en place d'un processus de 
mise en correspondance robuste aux grands ensembles de points. La forte combinatoire des 
methodes d'appariement classiques les rendent en effet vite inexploitables dans ce contexte, 
alors que pour etre efficaces, les methodes de transfert d'images requierent justement la 
donnee d'un grand nombre d'appariements. Notre approche est incrementale et exploite des 
contraintes geometriques robustes quelles que soient les transformations de I'image. Elle 



^Les translations, les rotations, les changements d'illumination, les changements d'echelle, les change- 
ments de point de vue et le bruit. 
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permet d'obtenir, pour des nombres de points de I'ordre du millier, des taux d'appariements 
corrects de pres de 95%, dans des temps de calcul considerablement reduits. 

Ajoutons pour terminer que cette etude a egalement permis de faire une synthese, que 
nous esperons complete, des differentes methodes de reconstruction tridimensionnelle et 
de transfert d'images existants dans la litterature de la Vision par Ordinateur. 

Plan du memoire 

Les travaux menes dans ce memoire se decomposent en trois grandes parties. La 
premiere est consacree a Fextraction de points d'interet dans des images en couleur. EUe 
se present e sous la forme de deux chapitres. 

- Chapitre 1 : Segmentation couleur 

Nous commengons dans ce chapitre par faire un bref etat de Tart des principaux 
extracteurs de points d'interet que Ton rencontre en Vision par Ordinateur. Ceux- 
ci sont exclusivement dedies aux images en niveau de gris. Nous passons ensuite 
en revue les quelques travaux de segmentation realises pour des images en couleur, 
avant de presenter les deux detecteurs de points d'interet que nous avons mis en 
place et qui exploitent I'information couleur. 

- Chapitre 2 : Evaluation des detecteurs couleur 

Le chapitre precedent est illustre par de nombreux resultats de detection, obtenus 
a partir des deux nouveaux extracteurs couleur, ce qui permet au lecteur d'evaluer 
visuellement la qualite de la detection. Afin d'etre a meme de juger de leur precision 
et de les situer par rapport aux detecteurs existants, nous mettons en place dans 
ce chapitre une methode d'evaluation basee sur deux criteres : la repetabilite du 
detecteur a travers des series d'images ainsi que sa localisation. Nos deux detecteurs 
couleur sont alors evalues aux cotes d'un detecteur de points en niveau de gris qui 
sert de reference. Pour tester la robustesse de ces operateurs, I'etude est realisee dans 
differents contextes incluant les principales transformations de I'image. 

La deuxieme partie est consacree a la mise en correspondance des points d'interet entre 
deux images en couleur. La premiere etape de ce travail consiste a les caracteriser selon une 
approche locale. La caracterisation obtenue pour chacun des points est ensuite exploitee 
au sein de techniques de mise en correspondance, a Tissue desquelles un ensemble coherent 
de points apparies, c'est-a-dire ayant des caracteristiques similaires, est obtenu. 

- Chapitre 3 : Caracterisation locale des points dHnteret - Etat de Vart 

Nous passons en revue dans ce chapitre les differents travaux qui ont donne lieu 
a des methodes de caracterisation, aussi bien en niveau de gris qu'en couleur. Un 
certain nombre de ces caracterisations extrait une information locale autour du point 
d'interet, mais travaille uniquement sur des images en niveau de gris. En parallele, 
les quelques methodes rencontrees exploitant I'information couleur extraient une 
information beaucoup plus globale, qui se revele peu adaptee a la caracterisation et 
a la mise en correspondance de points d'interet. 

- Chapitre 4 ' Les invariants differentiels couleur 

C'est ainsi que nous presentons dans ce chapitre une nouvelle approche de ca- 
racterisation locale de points d'interet, qui, elle, exploite I'information couleur. La 
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methode est basee sur les invariants differentiels de Hilbert. EUe permet de mettre 
en place une caracterisation invariante a la rotation image. Nous montrons que I'in- 
formation couleur permet de simplifier considerablement la mise en place de cette 
caracterisation, tout en la rendant plus robuste au bruit. Une technique issue du 
probleme de la Constance des couleurs est egalement presentee pour la rendre inva- 
riante aux changements d'illumination. 

- Chapitre 5 : Methodes d^appariements - Etat de Vart 

Dans ce chapitre, nous passons en revue les principales methodes de mise en corres- 
pondance qui exploitent les diverses caracterisations presentees au chapitre 3. L'ob- 
jectif de ces approches est de mettre en place une mesure de similarite permettant 
de les comparer. Nous verrons egalement que certaines de ces methodes exploitent 
des informations geometriques plus globales pour ameliorer Tappariement. Les prin- 
cipales techniques de mise en correspondance dense, consacrees a Fappariement de 
rintegralite des images, sont aussi presentees. 

- Chapitre 6 : Une methode de mise en correspondance robuste 

Nous avons presente au chapitre 4 une nouvelle methode de caracterisation de points. 
Ce chapitre se consacre en premier lieu a la mise en place d'une metrique permettant 
de I'exploiter pour la mise en correspondance. Des contraintes geometriques inva- 
riantes aux principales transformations de Timage sont egalement introduites. Puis, 
nous presentons une methode de mise en correspondance robuste rendant efficace 
Tappariement d'un tres grand nombre de points. Le processus complet d'appariement 
est ensuite teste et compare aux approches traditionnelles. 

A Tissue de ces deux parties, nous sommes capables de mettre en correspondance 
efficacement un grand nombre de points d'interet entre deux images en couleur. Nous allons 
maintenant voir dans la derniere partie de ce memoire comment il est possible d'utiliser 
ces appariements dans le cadre d'applications de stereovision dediees a la reconstruction 
tridimensionnelle et au transfert d'images. 

- Chapitre 7 : Geometric des systemes binoculaires et trinoculaires non calibres 
Dans ce chapitre, nous rappelons au lecteur les principales notions requises pour 
manipuler les systemes de vision constitues de deux ou trois cameras, dans un 
contexte non calibre. Dans un premier temps, les differents modeles de camera 
sont passes en revue. Puis nous presentons les entites caracterisant les systemes 
binoculaires, notamment la geometric epipolaire. Ceux-ci representent la configura- 
tion minimale necessaire pour envisager une reconstruction tridimensionnelle. Nous 
nous interessons egalement aux systemes trinoculaires, qui manipulent des entites 
indispensables au transfert d'images. Enfin, nous passons en revue les difi'erentes 
methodes permettant Testimation des diverses entites mises en jeu. Les cameras 
n'etant pas calibrees, les seules informations exploitables pour ces estimations sont 
les mises en correspondance de points. 

- Chapitre 8 : Synthese de vues intermediaires 

Ce chapitre est consacre aux methodes permettant de synthetiser des images d'une 
scene sous difierents points de vue, a partir d'images existantes. Ces approches 
peuvent etre decomposees en deux classes : d'une part les approches procedant 
a une reconstruction tridimensionnelle de la scene, avant de la reprojeter sur le 
plan retinien de I'image virtuelle, et d'autres part les methodes, dites methodes de 
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transfert, qui generent Timage virtuelle uniquement a partir de rinformation bidi- 
mensionnelle contenue dans les images de reference. Nous illustrons ce chapitre par 
des resultats de reconstruction tridimensionnelle et de transfert projectif d'images, 
realises a partir de points apparies par la methode presentee dans les deux premieres 
parties de ce memoire. 

En conclusion, nous recapitulons les principales contributions de notre approche, les 
ameliorations a apporter et les perspectives ouvertes par cette these. 



Premiere partie 

Detection de points d'interet pour 

la couleur 



Chapitre 1 



Segmentation couleur 



Ce chapitre debute par un href etat de Vart des principaux extracteurs de points dHnteret 
que Von rencontre en Vision par Ordinateur. Ceux-ci sont exclusivement dedies aux images 
en niveau de gris. Nous passons ensuite en revue les quelques travaux de segmentation 
realises pour des images en couleur, avant de presenter les deux detecteurs de points 
d^nteret que nous avons mis en place et qui exploitent Vinformation couleur. 
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12 Chapitre 1. Segmentation couleur 

Nous presentons dans ce chapitre la premiere etape du processus d'appariement : 
Fextraction des points d'interet. Le choix de ce type de primitive est tout d'abord 
explique et justifie a la section 1.1. L'originalite des travaux presentes ici reside 
dans le fait que les images utilisees sont en couleur. A notre connaissance, il n'existe aucun 
detecteur de points d'interet exploitant I'information couleur. Nous commengons done par 
faire a la section 1.2 un etat de Tart sur les differents detecteurs existants en niveau 
de gris. Nous detaillons particulierement le detecteur de Kitchen et Rosenfeld et celui 
de Harris et Stephens dans sa version precise. Le detecteur de Kitchen et Rosenfeld fait 
partie de la categorie des detecteurs travaillant a Fordre deux qui exploitent la magnitude 
du gradient ainsi que la courbure des contours. II a ete demontre equivalent a plusieurs 
autres detecteurs de la meme categorie. II fait Tobjet de la section 1.2.1. Le detecteur de 
Harris et Stephens utilise quant a lui uniquement les derivees du premier ordre. II a ete 
evalue comme etant le plus stable, surtout s'il est implemente dans sa version precise. La 
methode est presentee a la section 1.2.2. 

Ces deux detecteurs font Tobjet d'une presentation plus approfondie car ils appa- 
raissent comme etant les plus representatifs et/ou performants parmi tous les detecteurs 
existants et puis parce qu'ils extraient les points directement a partir du signal. Nous mon- 
trons alors a la section 1.3 comment il est possible de les generaliser pour qu'ils tiennent 
compte de I'information couleur. Dans cette section, un etat de I'art des quelques methodes 
de segmentation qui existent pour la couleur est realise. Puis nous presentons a la section 
1.3.2.1 I'adaptation couleur du detecteur de Kitchen et Rosenfeld et a la section 1.3.2.2 le 
detecteur de Harris Precis Couleur. Des exemples de detection de points d'interet viennent 
illustrer la presentation de ces travaux, permettant ainsi une premiere evaluation visuelle. 

Ce chapitre suppose d'avoir a I'esprit quelques notions de filtrage en traitement d'ima- 
ges. Le lecteur pent consulter I'annexe C pour une introduction au filtrage en precisions 
pixel et sub-pixel, ainsi qu'a la segmentation contours en niveau de gris. Dans toutes nos 
experimentations, les derivees de I'image sont calculees a partir d'un support gaussien, en 
precision pixel pour certaines et sub-pixel pour d'autres. 



1.1 Choix d'une primitive : les points d'interet 

L'extraction d'indices dans une image est une etape indispensable en Vision par Or- 
dinateur. Ainsi par exemple le calcul de la geometrie epipolaire ou encore le processus 
de reconstruction tridimensionnelle necessitent la donnee d'un certain nombre de mises 
en correspondance entre deux images. Traditionnellement, les methodes permettant de 
determiner ces mises en correspondance peuvent etre separees en deux classes : 

- Les approches dites iconiques qui sont basees directement sur le signal (I'image et ses 
derivees) : elles permettent de mettre en correspondance des points d'interet entre 
images, ou bien tous les pixels (appariement dense), uniquement a partir d'informa- 
tions photometriques ; 

- Les approches geometriques basees sur d'autres primitives de I'image de plus haut 
niveau, comme les contours, segments de droite, courbes ou regions : elles prennent 
en compte leur geometrie et certaines caracteristiques locales pour proceder a I'ap- 
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pariement. Citons notamment les travaux sur la couleur de [Jordan et Bovik, 1988; 
Coutance et al., 1989] en ce qui concerne Fappariement de segments, ainsi que ceux 
de [Brockelbank et Yang, 1989] pour Tappariement de contours. Le lecteur peut se 
referer a [Jones, 1997] pour un etat de Tart. 

Nous ne passerons pas en revue dans ce chapitre ce dernier type d'approches car 
les primitives geometriques s'averent trop instables d'une image a Tautre, notamment 
en presence d'occultations. De plus, les grandeurs symboliques les caracterisant sont des 
approximations plus ou moins precises de la realite. II n'est done pas souhaitable de les 
utiliser pour une estimation robuste de la calibration ou de la geometric epipolaire, lorsque 
les images ne sont pas suffisamment struct urees. 

Dans ce contexte, la detection de points d'interet directement a partir du signal semble 
au contraire s'averer la technique la plus precise. On peut par exemple citer les travaux 
de Zhang [Zhang et al., 1995b] qui s'appuient sur ce type de primitives pour estimer de 
fagon robuste la geometric epipolaire. 

D 'autre part, la detection directement a partir du signal se revele etre la solution la 
plus adaptee a la methode de caracterisation que nous developpons dans le chapitre 4. En 
effet, les points d'interet sont detectes aux endroits de I'image ou se trouve I'information 
la plus discriminante. Les positions trouvees permettent done d'exploiter au mieux ce type 
de caracterisation. 

Enfin la detection des points d'interet s'avere fiable quelles que soient les images 
traitees. EUe peut en effet etre envisagee de la meme fagon sur des images tres texturees 
comme sur des images contenant beaucoup de contours, contrairement aux methodes 
basees sur les caracteristiques symboliques dont I'efficacite depend fortement du contenu 
geometrique de la scene. 



1.2 Etat de Part en niveau de gris 

Un grand nombre de travaux ont ete realises concernant la detection iconique de points 
d'interet dans des images en niveau de gris. Les plus anciens sont ceux de Moravec [Mo- 
ravec, 1977], qui extrait des coins de I'image a partir de la fonction d'auto-correlation du 
signal. C'est le premier a avoir developpe I'idee de "points d'interet". Selon lui, un point 
d'interet est defini lorsque les valeurs de I'intensite varient beaucoup dans toutes les di- 
rections. De nombreux travaux proposent des ameliorations de cette premiere definition. 
Citons notamment le detecteur mis en place par Beaudet [Beaudet, 1978] lie a la courbure 
gaussienne de I'image, ensuite ameliore par Dreschler et Nagel dans [Dreschler et Nagel, 
1982] ou encore celui developpe dans [Zuniga et Haralick, 1983]. II a d'ailleurs ete demontre 
dans [Nagel, 1983; Shah et Jain, 1984; Noble, 1988] que ces deux derniers detecteurs, avec 
celui de Kitchen et Rosenfeld presente plus loin, sont similaires, puisqu'ils exploitent tous 
les trois le produit de la magnitude du gradient avec la courbure des isophotes ^. Deriche 
et Giraudon proposent egalement dans [Deriche et Giraudon, 1991] une methode permet- 
tant de localiser precisement le point comme I'endroit ou le laplacien s'annule sur la droite 
definie par les points detectes par I'approche de Beaudet implementee a differentes echelles. 



^ou lignes d'iso-intensite 
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Forstner propose quant a lui dans [Forstner et Giilch, 1987; Forstner, 1994] une approche 
basee sur la statistique locale de Timage. 

Dans les deux sections qui suivent, nous passons en revue le detecteur de Kitchen et 
Rosenfeld [Kitchen et Rosenfeld, 1982] ainsi que celui de Harris [Harris et Stephens, 1988; 
Bauckhage et Schmid, 1996]. Ceux-ci font I'objet d'une section chacun car c'est a partir de 
ces deux detecteurs que nos travaux se sont orientes vers la detection de points d'interet 
en couleur. 

1.2.1 Les coins de Kitchen et Rosenfeld 

L'approche de Kitchen et Rosenfeld est une des approches les plus representatives de 
toutes celles qui travaillent a I'ordre deux et qui exploitent la magnitude du gradient ainsi 
que la courbure des contours. EUe consist e plus precisement a maximiser la courbure des 
isophotes multipliee par la norme du gradient. La mesure obtenue donne des reponses 
fortes lorsque les valeurs de courbure et de gradient sont simultanement elevees. Comme 
pour les contours, cette phase s'appuie sur une etape de filtrage, ses resultats dependent 
done fortement de Testimation des derivees premieres et secondes de Fimage par rapport 
a j: et a y et notees /^, /^, Ixx-) Ixy ^t lyy (cf. annexe C). 

La courbure des isophotes peut s'exprimer par I'operateur suivant : 

T r2_2r T T \ T r2 

||V/||3 ^ ' ' 

Localement, Torientation des isophotes par rapport a Taxe des x peut s'exprimer de la 
maniere suivante : 

e = arctan (^J (1.2) 

L'operateur de Kitchen et Rosenfeld s'ecrit done : 

T r2_2r J J \ J r2 

T^o _ -^^^-^y ^ -^xyJ-xJ-y ^ -^yy-^x /. o\ 

||V/||2 ^ ' ^ 

Nous presentons ci-dessous Talgorithme de detection : 

- Detection des contours selon le processus presente a la section C.2 de Fannexe C (avec 
un seuillage par hysteresis tres bas de maniere a obtenir de nombreux contours) ; 

- Calcul de l'operateur de Kitchen et Rosenfeld KR ; 

- Calcul de I'orientation des isophotes ; 

- Calcul des maxima locaux de KR dans la direction de ces isophotes ; 

- Multiplication de I'image de ces maxima avec I'image des contours. On obtient un 
ensemble de coins ; 

- Calcul des maxima locaux et seuillage de ces coins. 
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1.2.2 Le detecteur de Harris et Stephens 

Le detecteur de Harris et Stephens [Harris et Stephens, 1988] est aussi connu sous le 
nom de detecteur de points caracteristiques de Plessey. II a ete congu sur le meme principe 
que le detecteur de Moravec, a la difference que la mesure de I'auto-correlation du signal 
A (cf. annexe A) est ici estimee a partir des derivees de Fimage du premier ordre. 

1.2.2.1 Stabilisation du detecteur 

Dans sa version precise [Bauckhage et Schmid, 1996], les calculs de derivation utilisent 
les derivees d'une fonction de lissage gaussien, les rendant ainsi plus stables. 

L'idee de base de ce detecteur est d'utiliser la fonction d'auto-correlation pour deter- 
miner les positions ou le signal change dans deux directions simultanement. Les derivees 
du signal sont calculees sur un support gaussien de taille a (cf. annexe C). En prenant 
en compte les derivees premieres sur une fenetre a, une matrice M liee a cette fonction 
d'auto-correlation est calculee : 



M = G{a) 



Il{a) h{a)Iy{a) 
Ua)Iy{a) Ilia) 



(1.4) 



ou G{a) represente un lissage gaussien. Notons que le facteur de lissage a utilise pour 
le calcul des derivees et celui pour le fenetrage a ne sont pas obligatoirement egaux. 

Les valeurs propres de M sont les courbures principales de la fonction d'auto-correlation. 
Deux valeurs suffisamment grandes indiquent la presence d'un point d'interet. Pour ne pas 
avoir a extraire ces valeurs propres, Harris utilise une mesure reposant sur le determinant 
et la trace de la matrice M. Les coins sont alors extraits a partir de I'operateur suivant : 

Det{M)-k.Trace^{M) avec A: = 0.04 (1.5) 

ou k est un parametre permettant de combiner I'information de contour donnee par la 
trace de M avec I'information d'angularite donnee par le determinant de M. L'algorithme 
de detection est presente ci-apres : 

- Calcul des derivees premieres de I'image avec un lissage gaussien de parametre a ; 

- Calcul de la matrice M avec lissage gaussien dans la fenetre a ; 

- Calcul des maxima locaux de I'operateur defini a I'equation 1.5. 

Notons que ce detecteur extrait des points la ou I'image est riche en information, ce 
qui ne limite pas I'extraction aux seuls coins de I'image. 

Cet operateur est en fait une version legerement modifiee de I'operateur de Plessey qui 
minimise le rapport de la trace par le determinant de M. Noble a montre dans [Noble, 
1988] que la matrice M peut se decomposer en une somme de deux termes. Si les derivees 
premieres de I'intensite peuvent etre approchees par un developpement de Taylor au pre- 
mier ordre et si la fenetre de calcul est symetrique par rapport a I'origine et par rotation, 
alors on peut ecrire : 

M ^Ag + a^He^ (1.6) 
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avec : 

y Ixy lyy J 

He est la mat rice Hessienne et reflet e la courbure de la surface des intensites. Ces deux 
termes montrent que M combine les contributions des derivees premieres et secondes. Le 
parametre a permet de meler les informations de gradient et de courbure et correspond a 
la largeur du flltre gaussien. 

Remarquons que developpee sous la forme 1.7, la matrice M est utilisee par Nagel 
dans [Nagel, 1987] pour I'estimation de flots optiques. Elle est egalement impliquee dans 
plusieurs autres types de detecteurs. Forstner par exemple deflnit dans [Forstner et Giilch, 
1987] un point comme Fintersection de deux ou plusieurs contours. Si ces derniers sont 
rectilignes alors I'algorithme de determination des points d'interet consiste a calculer I'in- 
tersection des droites les port ant, en minimisant les distances orthogonales entre toutes les 
droites dans un certain voisinage. C'est cette minimisation qui fait intervenir la matrice 
M, De meme, le detecteur mis en place par Rohr dans [Rohr, 1992] extrait les points 
d'interet en maximisant le determinant de M. 

Evaluation 

Dans [Schmid, 1996], Schmid evalue la version precise du detecteur de Harris et Ste- 
phens avec plusieurs autres detecteurs de points d'interet (les detecteurs de Heitger, de 
Forstner, de Horaud et de Cottier). Le critere d'evaluation utilise est la repetabilite de la 
detection lorsque I'image est prise dans des conditions difl"erentes : rotation image, change- 
ment d'echelle, changement de luminosite, changement de point de vue et bruit du systeme 
de prise de vue. Dans tous les cas, Schmid arrive a la conclusion que le detecteur de Harris 
precis donne des result at s meilleurs ou equivalents aux autres detecteurs. Les resultats de 
cette etude montrent que c'est le detecteur de Harris precis qui est le plus repetable en 
niveau de gris. Sa stabilite provient principalement du fait qu'il utilise les derivees d'une 
fonction de lissage mais aussi qu'il travaille seulement a I'ordre un. En ce qui concerne 
la robustesse face aux changements d'echelle, il est neanmoins necessaire d'envisager une 
approche multi-echelle, lorsque le facteur d'echelle n'est pas connu. Cette approche est 
developpee dans la prochaine section. 



1.2.2.2 Approche multi-echelle 

Un changement d'echelle peut etre du soit au deplacement de la camera, soit a un 
changement de la distance focale de celle-ci. Les resolutions des deux images diflerant de ce 
changement en sont alors modiflees. Si la resolution est deflnie par r — ^ ou f correspond 
a la focale de la camera et Z a la distance moyenne a la scene, alors le changement d'echelle 
a entre les deux images vaut a = ^ ou r^ est la resolution de la camera i. 

Soient deux fonctions /i et /2 diflerant de ce facteur d'echelle a. Ce dernier peut etre 
modelise par le changement afline suivant : 

fi{x) = f2{u{x))^f2{ax + c) (1.8) 
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Dans le contexte d'une representation discrete comme c'est le cas avec les images, les 
derivees sont calculees par convolution avec les derivees gaussiennes. Si G represente la 
gaussienne et Gi-^,,,i^ ses derivees suivant ii...in^ alors on obtient : 

Ii{x) * Gi,...i^{a) = a^'hiax + c) * Gi,...i^{aa) (1.9) 

Ce resultat montre que le detecteur de points doit etre adapte pour obtenir des resultats 
repetables. Les deux facteurs de lissage doivent etre multiplies par a. La matrice resultante 
est alors multipliee par a^ pour avoir des valeurs propres comparables. Si la matrice utilisee 
pour la premiere image est celle de Tequation L4, alors celle pour la seconde image est : 



M2 = a^G{aa) 



/^(acr) 4(acr)/^(acr) 

Ij;{aa)Iy{aa) Iy{(^cr) 



(1.10) 



Ainsi les notions de differenciation et de changement d'echelle sont intimement liees. 
Cette constatation est a Forigine de Tanalyse multi-echelle, dont le principe nous vient 
de Marr [Marr, 1982]. Nous ne considererons pas ici les approches qui effectuent un sous- 
echantillonnage de I'image [Murase et Nayar, 1995], car elles ont I'inconvenient d'introduire 
du bruit de discretisation ou des distorsions dans I'image traitee. Notre probleme repose 
plutot sur la notion d'^espace echelle^^ introduite sous sa forme continue par Witkin [Wit- 
kin, 1983] et Koenderink [Koenderink, 1984]. La definition de Tespace echelle pour les 
signaux ID continus est la suivante : 

Definition 1 (Espace echelle) Soit f{x) une fonction et Ga{x) la gaussienne d'ecart- 
type a. On appelle espace echelle le lieu des realisations de la transformation S definie 
par : 

{Sf){x,a) =f^Ga{x), {x,a) G 7^ x 7^+ (1.11) 

On appellera S operateur de changement d^echelle et Von notera E — {x^a) Vespace 
echelle. 

La transformation enoncee ci-dessus conduit a la representation d'une fonction sous 
la forme d'une surface decrite dans E. On pent done etudier directement cette surface 
en utilisant des arguments de geometric difierentielle. Dans notre cas, pour obtenir les 
derivees gaussiennes, nous simplifions la representation en derivant la surface uniquement 
suivant les variables x et y. 

Si le facteur d'echelle est inconnu, ce qui est le cas le plus souvent, alors il faut envisager 
de calculer la matrice de I'equation 1.10 dans un contexte multi-echelle, c'est-a-dire pour 
plusieurs valeurs de a. De nombreuses etudes ont ete menees sur la discretisation de 
I'espace echelle, on peut notamment consulter [Falzon, 1994] pour un etat de I'art ou 
encore [Armande, 1997] pour une analyse multi-echelle dans le cadre de la detection de 
reseaux fins. Dans [Schmid, 1996], Schmid propose un espacement lineaire de 0.5. Les 
resultats obtenus sont alors bons jusqu'a un facteur d'echelle de 3. Dans une version plus 
recente [Dufournaud et al., 2000], le facteur d'echelle est estime lors de I'etape de la mise 
en correspondance, ce qui permet d'obtenir des resultats plus robustes jusqu'a un facteur 
d'echelle de 6. Cette methode est plus amplement detaillee dans la section 5.1.4.3 du 
chapitre 5. 

^Pour un resume, consulter par exemple [Lindeberg, 1993; ter Haar Romeny, 1996]. 
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1.3 Segmentation couleur 

Comme en niveau de gris, la segmentation couleur s'appuie sur les etapes de filtrage 
qui peuvent etre realisees en sub-pixel (cf. annexe C). Les contours et les coins sont des 
generalisations des methodes definies en niveau de gris. Dans la prochaine section, nous 
rappelons les principales methodes existantes permettant d'extraire les contours d'une 
image couleur, a savoir Tapproche basee sur le gradient de Di-Zenzo et celle basee sur 
le gradient maximal. Jusqu'a ce jour, aucune approche couleur n'a ete developpee pour 
Textraction de points d'interet. Nous presentons dans la section 1.3.2 deux approches 
specifiques a la couleur, qui correspondent aux extensions des detecteurs de Harris precis 
et de Kitchen- Rosenfeld. Les travaux concernant ces deux nouveaux detecteurs ont donne 
lieu a des publications [Montesinos et al., 1998; Gouet et al., 2000; Montesinos et al., 2000]. 



1.3.1 Segmentation contours 

II existe dans la litterature de nombreuses methodes permettant d'extraire des infor- 
mations (contours, coins, regions) d'images couleur [Luong, 1991], certaines travaillent 
directement dans Fespace RVB comme dans [Machuca et Phillips, 1983; Di Zenzo, 1986; 
Cumani et al., 1990; Fellah, 1994; Zhu et Yuille, 1996; Sapiro et Ringach, 1996]. D'autres 
encore travaillent dans des espaces couleur HLS, HSI, CIELUV, CIELAB [Luong, 1991; 
Schettini, 1993; Perez et Koch, 1994]. Les methodes directes (RVB) semblent bien adaptees 
a I'extraction de contours et points caracteristiques [Di Zenzo, 1986; Cumani et al., 1990; 
Machuca et Phillips, 1983], en revanche de nombreuses methodes de segmentation region 
travaillent dans d'autres espaces couleur [Luong, 1991; Schettini, 1993; Perez et Koch, 
1994]. 

Nous presentons dans cette section deux approches qui sont des generalisations de la 
segmentation contours en niveau de gris au cas multi-spectral et qui travaillent directement 
dans I'espace RVB. La premiere methode est basee sur le gradient multi-spectral de Di- 
Zenzo [Di Zenzo, 1986; Cumani et al., 1990] et la seconde sur la maximisation du gradient 
dans les trois plans RVB [Fellah, 1994]. Comme en temoignent les images de contour qui 
sont presentees, les resultats obtenus a Taide de ces methodes sont de bonne qualite, la 
detection couleur permettant de diviser par trois le rapport signal/bruit par rapport aux 
images en niveau de gris. 



1.3.1.1 Le gradient multi-spectral de Di-Zenzo 

Soit une image multi-spectrale I{x), Nous nous interessons aux fortes variations de 
cette fonction dans le plan image ou un pixel est defini par un vecteur x = {x^^x^)^. 
La fonction image etant elle meme vectorielle telle que I{x) — {R{x)^V{x)^B{x))^ ^ nous 
exprimons les variations de la norme de ce vecteur, soit : 



'^^^ = E E ghkdx^dx'' (1.12) 

h=lk=l 
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sous la condition 



2 2 



(1.13) 



et ou Qf^k represente la composante {h^k) du tenseur multi-spectral G(2x2) telle que : 

9hk = Vk-Vk (1.14) 



avec 



vi = 



dx^ ^ 




dx' 


dV{x) 
dx^ 


V2 = 


dV{x) 
dx^ 


1 dB{x) 1 




\ dx^ ) 



(1.15) 



La norme du gradient multi-spectral est donnee par la racine carree de la valeur propre 
maximale Xmax du tenseur multi-spectral G et I'orientation du gradient multi-spectral par 
rapport a Faxe des x est donnee par le vecteur propre Pmax associe a Xmax^ soit : 



>^max = 2 (^11 + 922 + VA) 



(1.16) 



avec 



et 



A = {911 -922) +^9l2 



I'^max — 



y4:9i2 + (511 -522 - Va) 



^ / -2^12 

2 V 911 - fl'22 - V^ 



(1.17) 

(1.18) 



L 'angle du gradient multi-spectral par rapport a I'axe x est donne par la formule 
suivante : 

9n - 922 - V^\ 



9 — arctan 



ou encore en passant par Tangle double : 



2^12 ) 



n 1 , ( 2^12 

6 — - arctan 

2 V^ii - ^22 



(1.19) 



(1.20) 



La detection de contours se poursuit de maniere analogue aux methodes en niveau de 
gris : suppression des non maxima locaux du gradient dans la direction du gradient et 
seuillage par hysteresis (se reporter a la section C.2 de Tannexe C). 

Nous avons implemente cette methode. L 'image couleur utilisee pour tous les tests 
de ce chapitre est presentee a la figure 1.1. Nous avons egalement a notre disposition son 
equivalent en niveau de gris (cf. annexe B). Nous presentons des exemples de segmentation 
contour en couleur mais egalement en niveau de gris. Ceux-ci ont ete realises en precision 
pixel a la figure 1.2 et en precision quart de pixel a la figure 1.3, a Tissue d'un seuillage 
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par hysteresis. Le filtre utilise est un filtre gaussien recursif [a — 1). La premiere ligne 
de chaque figure montre les resultats de detection obtenus en niveau de gris a partir du 
gradient mono-spectral, alors que la deuxieme ligne presente les contours obtenus a partir 
du gradient multi-spectral de Di-Zenzo. Le lecteur pent constater une amelioration notable 
de la detection lorsque I'information couleur est exploitee, par exemple au niveau du toit de 
la maison la plus a gauche dans les images de la figure L2. Des resultats complementaires 
sont consultables a la section D.Ll de Tannexe D. 




Figure 1.1 - Image initiale ''Toys^\ 



1.3.1.2 Gradient maximal 



Alors que le gradient multi-spectral de Di-Zenzo utilise les proprietes difierentielles 
exactes des fonctions vectorielles, il est possible de definir de nombreuses autres methodes 
pour combiner les gradients provenant des difierents plans d'une image couleur. II s'agit 
de definir des fonctions scalaires croissantes par rapport a chacune des variables, de R^ 
dans R^ (ou plus generalement de i?^^ dans R^ dans le cas d'images 2D multi-spectrales 
a n composantes) . Dans [Fellah, 1994], Fellah construit de telles fonctions a Faide des 
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En niveau de gris : contours obtenus a partir du gradient mono-spectral 




En couleur : contours obtenus a partir du gradient multi-spectral de Di-Zenzo 



Figure 1.2 - Detection de contours en precision pixel. 
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En niveau de gris : contours obtenus a partir du gradient mono-spectral 




En couleur : contours obtenus a partir du gradient multi-spectral de Di-Zenzo 



Figure 1.3 - Detection de contours en precision quart de pixel : detail des ^'maisons^\ 
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normes classiques de i?^ et B? : 

^{dR dR dV dV dB dB \ „,„„„„ „„,,„ mv^t.,, m, /. o,n 

Si n = 2 et rri = oo, on obtient : 

r dR dR dV dV dB OB \ ,„^„„ „^^^„ „„„„ , ,, _, 

n a^' V ^' V ^^^)=-^^mm2A\VVh,\\VB\\,} (1.22) 

Dans ce cas, la norme du gradient multi-spectral est la norme infinie des normes qua- 
dratiques des gradients dans chacun des plans, I'orientation du gradient multi-spectral est 
donnee par Torientation correspondant au maximum des trois gradients. La detection de 
contours se poursuit de maniere analogue au cas en niveau de gris : suppression des non 
maxima locaux du gradient dans la direction du gradient et seuillage par hysteresis (se 
reporter a la section C.2 de Fannexe C). Dans la suite des travaux, nous appelons MAX 
cet operateur. 

Cette methode a ete implementee et testee. Les resultats obtenus presentent une 
amelioration significative par rapport a la detection de contours en niveau de gris en 
precision pixel et semblent aussi meilleurs que ceux obtenus par la methode de Di-Zenzo 
en precision pixel, comme Tillustre la figure 1.4, pour laquelle un filtrage gaussien recursif 
a ete utilise (a = 1) ainsi qu'un seuillage par hysteresis. Des resultats complementaires 
sont consultables a la section D.1.2 de Tannexe D. 

Dedoublement des contours 

En revanche, lorsque Ton passe en precision sub-pixel, il semble que cet operateur 
detecte aussi les imperfections des capteurs, et notamment des petits decalages sub- 
pixelliques entre les differents plans de Timage couleur. Ces decalages se traduisent alors 
par des instabilites et un doublement de certains contours. A partir de la precision quart 
de pixel, Toperateur de Di-Zenzo se comporte mieux que Toperateur MAX et fournit tou- 
jours les meilleurs resultats de segmentation. Cette idee est illustree par les exemples de 
detection en huitieme de pixel a la figure 1.5. 



1.3.2 Extraction de points caracteristiques 

Pour chacun de ces detecteurs, nous presentons la methode employee ainsi que quelques 
resultats obtenus pour difi'erentes images couleur, fournissant une evaluation visuelle de 
ces deux nouvelles methodes. Une evaluation plus poussee sera mise en place au prochain 
chapitre. 



1.3.2.1 Les coins 



Differentiation d'un champ de vecteur 
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Operateur de Di-Zenzo 

















Operateur MAX 



Figure 1.4 - Detection de contours en precision pixel par les operateurs de Di-Zenzo et 

MAX. 
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Operateur de Di-Zenzo 




Operateur MAX 



Figure 1.5 - Detection de contours couleur en precision huitieme de pixel (detail d^un Hoit 
de maison'^). 
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De la meme fagon que Foperateur de Di-Zenzo generalise le gradient d'une image 
scalaire au cas des champs de vecteurs, nous generalisons ici la courbure des isophotes au 
cas multi-spectral {i?, V^B}. 

Soit une courbe tracee dans le plan image dont Torientation de la tangente par rapport 
a I'axe des x^ effectue un angle 9^ ; la Courbure Multi-Spectrale de cette courbe (notee 
CMS) s'exprime par : 

CMS = ^ (1.23) 

As 

Ici, 9t represente I'orientation de la tangente au contour (au sens de Di-Zenzo) par 
rapport a Taxe des x, ou encore I'orientation du vecteur propre Pmin correspondant a 
la valeur propre minimale du tenseur multi-spectral Xmin {Pmax ^t Pmin sont deux vec- 
teurs orthogonaux). Cette expression pent etre developpee en fonction de Forientation du 
gradient multi-spectral 9 de la maniere suivante : 

as ox as oy as 

avec 

Ax di/ 

— = - sine' et -^ = cos^ (1.25) 

as as 

Aux equations 1.26 et 1.27, nous donnons les expressions de ^ et ^ en fonction 
des derivees de Fimage {R,V,B} et d'un parametre A defini a Fequation 1.28 : 

I ^ ^x ^xy \ ^ ^xx ^y ^ ^ x ^ xy ^ y \ ^ ^x ^xx ^y \ ^ ^x ^xy ^y 
z ijrj^ JDy Tix -ttxx ~r ^ J^x -^xy ^ -^x -^xx ^x -^y ~r ^ -^xy -^y ^x -^y~^ 
^ -^xx -^y ^ ^x -^xx -^y ~r ^ -^x -^y -^xy -^y ~r ^ ^x -^xy -^y 
z Ux iJy Vx -^xx ~ ^ ^x ^y ^x -^xx \ ^ ^x ^ xy ~ ^ ^x ^xx ^x 

Vy + 2 Bxy By Vx Vy — 2 Rx RxX Vx Vy + 2 Rxy Ry Vx Vy + 
^ ^XX Vy — 2 Vx Xxx Vy + 2 Bx By Vxy Vy + 2 Rx Ry Vxy Vy j 



dl 

dx 



A^ + A {Bx By + RxRy+ Vx VyY 



(1.26) 



de 



I Z. iJx ^xy ^y ~r ^' ^x ^y ^yy ^' ^x ^y ^x ^xy ^' ^x ^xy ^x ^y\ 
L. JDy tjyy itx -thy ^- Jix ^xy ^y ~r ^' -Dx -tjy -tty -ttyy ~r ^- itx ^y ^yy 
z. IJx ijy V X ^ xy ^' ^x ^y ^ x ^ xy ^' ^x ^xy ^ x ^y ~r ^' ^y ^yy ^ x ^y 
2. Rx Rxy Vx Vy + 2. Ry Ryy Vx Vy — 2. Vx Vxy Vy + 
^xy ^y ^ ~r ^x ^yy ^ ~r ^xy ^y ^ ~r Kx ^yy ^ ~r V xy Vy A. -\- Z. iJx t)y Vy Vyy-r 

2. R^ Ry Vy Vyy + 2. V^ Vy^ Vyy + V^ A Vyy ) 



^y A^ + A {B, By +R,Ry+ V, VyY 



(1.27) 



avec 



A^Bj- By^ + i?^2 _ Jl^2 ^ yj _ y^2 (j 28) 



La detection des coins couleur se fait alors selon le processus suivant [Montesinos et al., 
1998] : 
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- Extraction des contours couleur a I'aide de Foperateur de Di-Zenzo (en maximisant 
d'abord la plus grande valeur propre Xmax du tenseur multi-spectral selon la direction 
du vecteur propre associe, puis en procedant a un seuillage par hysteresis) ; 

- Calcul de la courbure couleur Kcouleur — CMS x Xmax 'i 

- Extraction des points ayant la plus forte courbure en maximisant Kcouleur dans la 
direction de 9 : K^ax ; 

- Recherche des points de contour parmi K^ax ] 

- Enfin les coins couleur sont determines par seuillage parmi les maxima locaux des 
points trouves. 

Courbure maximale 

De la meme maniere que pour le gradient maximal, il est possible de definir une fonction 
scalaire des courbures dans chacun des plans par exemple : 

/ {Kr, Kv. Kb) = max {Kr, Ky, Kb} (1.29) 

L 'orientation des lignes d'iso-intensite peut alors etre choisie comme I'orientation cor- 
respondant a la courbure maximale (orientation perpendiculaire au gradient). Compte 
tenu du peu de stabilite de I'operateur MAX pour la detection de contours en precision 
sub-pixel, nous n'avons pas teste ici cet operateur. 

Quelques resultats 

Nous presentons ici des resultats de detection de coins couleur a partir de I'operateur 
CMS (equation 1.24), en precision pixel a la figure 1.6. Les derivees sont estimees a I'aide 
de filtres gaussiens recursifs en precision pixel avec a = 1. Les parametres de detection des 
coins sont de 0.05 pour le seuil et de 9 pixels pour le diametre de la fenetre circulaire pour 
la maximisation des coins. D'autres resultats sont disponibles a la section D.2 de I'annexe 
D. 



1.3.2.2 Le detecteur Harris Precis Couleur 

Le detecteur de Harris et Stephens dans sa version precise semble particulierement 
adapte a la mise en correspondance de points, de part son excellente repetabilite (cf. 
section 1.2.2). Sa stabilite provient essentiellement du fait que son implantation n'utilise 
que les derivees de I'image d'ordre un. Cette particularite s'avere d'ailleurs fort interessante 
pour notre etude car elle est en accord avec la caracterisation que nous presentons au 
chapitre 4. Notre contribution a done consiste a introduire I'information couleur {i?, V^B} 
dans le detecteur du premier ordre deja exist ant. La matrice M utilise alors le tenseur 
multi-spectral (defini a I'equation 1.14) et devient [Montesinos et al., 1998] : 



M = G{a) 



Rlia) + V^{a) + Blia) R.{cj)Ry{a) + V,{a)Vy{a) + B,{a)By{a) 

l{<^) + y^{<^) + Bi{ 

(1.30) 



R.{o)Ry{o) + V,{a)Vy{a) + B,{a)By{a) R^a) + Tf (a) + BVa) 
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Figure 1.6 - Detection de coins couleur en precision pixel 
des lignes dHso-intensite au cas multi- spectral. 



generalisation de la courbure 
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Le lecteur peut voir a la figure 1.7 un exemple de points Harris Precis Couleur detectes 
sur Fimage 1.1. Un filtre gaussien (<j = 1) a ete utilise pour le calcul des derivees gaus- 
siennes en precision demi-pixel. Le choix de la precision demi-pixel impose de doubler la 
taille du support pour le second lissage. II faut done prendre a = 2. La taille de la fenetre 
pour le seuillage local est de 15 pixels et la valeur du seuil est 0.05. D'autres resultats sont 
disponibles a la section D.2 de Tannexe D. 




Figure 1.7 - Detection de points Harris Precis Couleur en precision demi-pixel. 



1.3.2.3 Evaluation visuelle 



Considerons un extrait de Timage 1.1 appele "Maison". Les figures 1.8 et 1.9 montrent 
les points d'interet obtenus respectivement avec le detecteur de Kitchen et Rosenfeld (cf. 
section 1.2.1) et le detecteur Harris Precis (cf. section 1.2.2) sur Fimage en niveau de gris 
correspondante. Les figures 1.10 et 1.11 quant a elles montrent les resultats obtenus en 
utilisant les detecteurs correspondants en couleur. Dans tous les cas, la detection a ete 
realisee a Taide d'un lissage gaussien de parametre a = 1 en demi-pixel (qui implique 
a = 2 pour le lissage avec Harris). La taille de la fenetre locale pour le seuillage est de 9 
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et le seuil varie en fonction des detecteurs, de fagon a obtenir a peu pres le meme nombre 
de points pour toutes les detections. 




Figure 1.8 - Extrait ^'Maison'^ : 121 coins selon Kitchen et Rosenfeld en niveau de gris. 



On constate de visu que les quatre ensembles de points caracteristiques extraits semblent 
d'avoir un grand nombre d'elements en commun. Cependant, pour certains points (I'epaule 
du personnage a gauche par exemple ou encore le detail du torchis sur la fagade de la mai- 
son), le point detecte ne semble pas etre localise exactement au meme endroit dans les 
images contenant les points detectes par les operateurs de Harris et celles associees aux 
operateurs de Kitchen et Rosenfeld. Ceci sous-entend que ces deux classes de detecteurs 
ne realisent pas la detection avec la meme precision. II semble que, contrairement aux 
operateurs de Kitchen et Rosenfeld, les detecteurs de Harris ne detectent pas exactement 
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Figure 1.9 - Extrait '^Maison^^ : 128 points Harris Precis en niveau de gris. 
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Figure 1.10 - Extrait '^Maison^^ : 142 coins selon Kitchen et Rosenfeld en couleur. 
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Figure 1.11 - Extrait ^'Maison^^ : 119 points Harris precis en couleur. 
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les coins. 

On pent egalement constater quelques differences entre les detections en niveau de gris 
et les detections correspondantes en couleur pour chaque classe de detecteur (voir le detail 
du torchis au dessus de la fenetre la plus a gauche par exemple). 

II est bien evident qu'une evaluation simplement visuelle ne suffit pas ici, il faudrait 
pouvoir comparer avec precision les points obtenus sur une serie d'images, afin de pouvoir 
emettre un jugement plus "qualitatif . Ceci sera fait dans la suite de ces travaux. 



1.4 Conclusion 

Dans ce chapitre nous avons presente un etat de Tart des principales methodes de 
detection de points d'interet. Nous nous sommes particulierement interesses aux approches 
utilisant directement le signal. C'est en effet ce type d'approche qui est susceptible d'ex- 
ploiter au mieux rinformation couleur dont nous voulons tenir compte, en plus de donner 
les resultats de detection les plus precis et les plus stables. Dans ce contexte, deux de ces 
methodes ont ete examinees en particulier. II s'agit du detecteur de Kitchen et Rosenfeld 
et du detecteur de Harris et Stephens Precis. Notre travail a alors consiste a les generaliser 
au cas d'images en couleur. 

Les resultats de detection qui ont ete presentes en niveau de gris et en couleur mettent 
en avant deux points precis. D'une part, il semble que les deux detecteurs de Harris et 
ceux bases sur Kitchen et Rosenfeld n'extraient pas exactement les memes points. Quelle 
est alors la classe de detecteur qui offre la meilleure precision? D'autre part, il semble 
aussi que des differences apparaissent dans la detection des que Ton exploite Tinformation 
couleur. Est-ce que cette information supplementaire permet d'ameliorer I'extraction des 
points ? II a ete prouve que le detecteur de Harris Precis en niveau de gris etait plus stable 
que les principaux autres detecteurs, selon un critere de repetabilite. II est done egalement 
necessaire de mettre en place des criteres plus rigoureux qu'une simple evaluation visuelle 
pour juger les deux nouveaux detecteurs dediees a la couleur que nous venons de presenter. 
C'est ce travail qui fait I'objet du prochain chapitre. Un etat de I'art sur les quelques 
criteres d'evaluation d'extracteurs de points existants y est presente. Puis deux criteres 
sont proposes et testes sur nos deux nouveaux detecteurs ainsi que sur le detecteur Harris 
Precis en niveau de gris qui sert de reference. 



Chapitre 2 



Evaluation des detecteurs couleur 



Afin d^etre a mime de juger de la precision des deux nouveaux detecteurs couleur qui 
viennent d^etre presentes^ nous mettons en place dans ce chapitre une methode d^ evaluation 
basee sur deux criteres : la repetabilite du detecteur ainsi que sa localisation. Les deux 
detecteurs couleur sont alors evalues aux cotes d^un detecteur de points en niveau de gris 
qui sert de reference. Pour tester la robustesse de ces operateurs, V etude est realisee dans 
differents contextes incluant les principales transformations de Vimage. 
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2.1. Methode d^ evaluation 31 

En Vision par Ordinateur, beaucoup d'applications telles que I'indexation ou la re- 
construction tridimensionnelle ont pour base Textraction de points d'interet. Leur 
fiabilite depend done grandement de la precision des points extraits. II existe beau- 
coup de travaux sur les detecteurs de points d'interet en niveau de gris, mais la methode 
d'evaluation de ces detecteurs la plus repandue consiste a verifier visuellement la qualite 
des points trouves. Cette analyse fournit bien souvent une appreciation totalement subjec- 
tive, dans la mesure ou Tobservateur compare le resultat avec ce qu'il estime comme etant 
un point d'interet et non pas avec ce qui constitue le lieu ou le signal est riche en informa- 
tion. En outre revaluation visuelle ne pent pas fournir d'appreciation exploitable quant a 
la precision de la detection. Nous avons done juge utile de mettre en oeuvre dans ce cha- 
pitre une methode d'evaluation pour evaluer avec precision la valeur des deux detecteurs 
couleur presentes au chapitre precedent. Dans la section 2.1, nous presentons les criteres 
que nous avons choisis pour evaluer ces detecteurs. Dans la section 2.2, nous les estimons 
sur des series d'images tres difierentes les unes des autres, afin d'observer le comportement 
de nos detecteurs dans plusieurs situations. Pour etre a meme de comparer les resultats 
obtenus, les mesures sont aussi realisees sur un detect eur en niveau de gris qui a fait ses 
preuves. L'ensemble des resultats est enfin discute dans la section 4.4. L'ensemble des 
travaux developpes dans ce chapitre a fait I'objet d'une publication [Gouet et al., 2000]. 



2.1 Methode d'evaluation 

Apres avoir passe en revue dans la section 2.1.1 les quelques methodes d'evaluation qui 
existent deja, nous definissons en 2.1.2 et 2.1.3 les criteres que nous avons adoptes pour 
revaluation des extracteurs de points couleur. Dans la section 2.1.4, nous presentons le 
contexte qui a permis d'etablir ces mesures. 

2.1.1 Etat de Tart 

D'un point de vue general, un detecteur de points d'interet peut etre caracterise par 
les deux criteres suivants : 

- sa repetabilite : le detecteur est dit repetable si le meme point est detecte dans une 
suite d'images ; 

- sa localisation : elle signifie qu'un point detecte dans I'image correspond de fagon 
precise a un point de la scene tridimensionnelle. 

Bien que le critere d'appreciation des detecteurs soit tres souvent simplement visuel, 
quelques travaux ont ete realises sur la repetabilite et la localisation des detecteurs en ni- 
veau de gris. Dans sa these [Schmid, 1996], Schmid met en place un critere de repetabilite 
qui comptabilise le nombre de points repetes d'une vue a I'autre dans une sequence 
d'images. Cette mesure lui permet de mettre en evidence la stabilite du detecteur de 
Harris precis. Elle ne tient pas compte de la mesure de localisation car les applications 
visees dans son etude portent sur I'appariement et la reconnaissance d'objets dans une 
base de donnees. Dans un article recent [Schmid et al., 2000], elle propose en plus une 
mesure d'entropie pour determiner quels sont les detecteurs qui permettent d'extraire le 
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point la ou rinformation photometrique est la plus riche. Quelques annees plus tot, De- 
riche et Giraudon dans [Deriche et Giraudon, 1993] etudient quant a eux la localisation des 
detecteurs les plus classiques en niveau de gris, a partir de leur modele de point. Une des 
conclusions de leur etude est qu'aucun de ces detecteurs ne possede une excellente mesure 
de localisation. lis exploitent d'ailleurs cette lacune pour estimer la position exacte du 
point en lissant plus ou moins Timage. Plus tard, Brand estime dans [Brand, 1995] une 
mesure de localisation pour comparer plusieurs detecteurs en niveau de gris. L'application 
visee dans son cas etant la reconstruction tridimensionnelle, la mesure qu'il definit s'ap- 
puie sur Talignement de points, la precision de la reconstruction, la precision du calcul 
de la geometrie epipolaire et la stabilite des birapports. Dans sa these [Blaszka, 1997], 
Blaszka passe en revue les principaux extracteurs de coins et quantifient leur precision et 
leur fiabilite. II travaille a partir d'images synthetiques bruitees d'angles et de jonctions. 
La detection est realisee pour plusieurs valeurs de lissage et une erreur de localisation 
est calculee entre les points extraits et la position reelle du sommet de Tangle ou de la 
jonction. Heyden et Rohr quant a eux etudient dans [Heyden et Rohr, 1996] la precision 
de la detection pour cinq extracteurs de points, en utilisant la conservation d'invariants 
projectifs entre des points de la scene tridimensionnelle et les points detectes. De fagon 
similaire, Coelho et al. developpe dans [Coelho et al., 1992] une methode pour evaluer les 
performances de trois detecteurs de points, a partir d'invariants projectifs. 

Plusieurs travaux [Canny, 1986; Deriche et Giraudon, 1993; Wang et Brady, 1992; 
Fidrich et Thirion, 1998] ont mis en evidence que le lissage ameliore la repetabilite du 
detecteur mais en revanche deteriore sa localisation. Dans le cas general, ces deux criteres 
d'evaluation prennent plus ou moins d'importance selon Tapplication envisagee. Une bonne 
repetabilite du detecteur sera precieuse par exemple lorsqu'il s'agit de mise en correspon- 
dance, de Testimation de la geometrie epipolaire ou encore de Tindexation d'images. En 
revanche, pour la reconstruction tridimensionnelle ou le calibrage, plus generalement pour 
toutes les applications qui font intervenir la 3D, il faudra en plus tenir compte de la mesure 
de localisation. 

L'objectif de nos travaux etant le transfert d'images ou encore la reconstruction tri- 
dimensionnelle, il s'est done avere necessaire de tenir compte des deux criteres. Les deux 
sections qui suivent presentent les solutions adoptees. 



2.1.2 Critere de repetabilite 

Nous reprenons ici la definition de la repetabilite introduite par Schmid dans [Schmid, 
1996]. Soient deux images li et Ij d'une meme scene 3D et Mi et Mj les matrices de projec- 
tion correspondantes. La detection des points images pi et pj appartenant respectivement 
a li et Ij est parfaitement repetable si et seulement si il existe un point P de la scene tel 
que : 

Pi^MiP et Pj = Mj P (2.1) 

Pour mesurer la repetabilite d'un detecteur, une solution consiste a etablir une relation 
entre pi et pj. II n'en existe pas dans le cas general, mais si li et Ij sont les images d'une 
scene plane, alors il existe une homographie Hij du plan projectif V^ les reliant^. Dans le 

^Le lecteur peut se referer a la section 7.3.3 du chapitre 7 pour la definition de Thomographie du plan 
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cas d'une repetabilite parfaite, la relation entre pi et pj est done la suivante : 

Pj = HijPi 



(2.2) 



Dans des conditions reelles, un point detecte n'a pas necessairement d'homologue dans 
I'autre image. II convient done de ealeuler la repetabilite sur les parties communes des 
images, en eliminant du calcul les points dont Timage par Hij n'appartient pas a Timage 
correspondante, et reciproquement. En outre, le support de Timage etant discret et la 
repetabilite d'un detecteur pouvant etre imparfaite, I'equation 2.2 n'a guere de realite 
physique. II s'averera done necessaire dans la pratique de considerer la repetabilite du 
detecteur dans un certain voisinage. 

Soit Cij{pi^k) 1^ point de Ij en correspondance homographique avec le point detecte 
Pi^k de li. II represente le point discret de Timage le plus proche de son correspondant 
homographique exact HijPi^j^^ comme le montre la figure 2.1. 



i i i I I I i i I 



/*/ - 




I I I I I 



iVff;/i<Pi^ 



^ffl2Pl 



Figure 2.1 - Discretisation du correspondant homographique de pi : Cuipi)- 

Nous lui associons la mesure Dij{pi^f^) qui traduit la distance euclidienne entre ce 
correspondant predit Cij{pi^k) ^t le pixel le plus proche parmi tous les points detectes pj^i 
delj : 

Dijipi^k) = mm{di5t(C^j(;?^,/c),:Pj,/)} (2.3) 

La mesure ci-dessus a I'inconvenient de ne pas distinguer les points dont le corres- 
pondant dans I'autre image est proche d'un point detecte, des points qui n'ont pas de 
correspondant. On calcule en efi'et pour ces derniers une distance relativement grande qui 
n'a aucun interet et qui fait augmenter la moyenne done degrader la qualite du detecteur 
teste. II faut done etre capable de determiner si un point correspond a un point de I'autre 
image en tenant compte de I'erreur de localisation generee par le detecteur, ou bien s'il 
n'a aucun correspondant dans I'autre image. Ceci est fait en considerant uniquement les 
points situes en dessous d'un voisinage de rayon e. Pour une distance superieure ou egale 
a £, on considere que le point n'a pas de correspondant. La distance definie a I'equation 
2.3 est alors adapt ee de fagon a prendre en compte ce critere : 



DtM.k) = 



DijiPi^k) si Dij{pi^i,) < 8 
8 sinon 



(2.4) 



Cette formule n'elimine pas du calcul les points qui ne sont pas repetes dans le voisinage 
donne, la distance 8 leur etant associee par defaut ; nous verrons plus loin les avantages 

project if. 
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apportes par cette solution. Si Ni (resp. Nj) est le nombre de points detectes dans I'image 
li (resp. Ij) qui ont un correspondant potentiel dans Ij (resp. li) et n\^ le nombre de points 
effectivement repetes dans le voisinage e (avec 71^^ < Nj)^ alors nous pouvons definir la 
mesure de repetabilite i?f^ de Fimage li vers Timage Ij telle que : 



JTLij 



^oyj,{DlApi^k)) 



^•K + 1) 



(2.5) 



Afin d'obtenir une mesure symetrique entre les deux images li et Ij quel que soit le 
nombre de points detectes, nous definissons enfin la mesure de repetabilite R^ telle que 
[Gouet et al., 2000] : 

R'^moy{Rlj,R'j,) (2.6) 

Proprietes de cette mesure de repetabilite 

Notons quelques aspects de la mesure de repetabilite R^ mise en place ici : 

- Le coefficient ^ de Tequation 2.5 permet de normaliser la mesure entre et 1, 
le detecteur ayant la plus petite mesure de repetabilite etant considere comme le 
meilleur ; 

- Tenir compte d'une distance minimale dans le calcul de Rfj permet de mettre en va- 
leur le detecteur le plus precis parmi plusieurs detecteurs possedant des repetabilites 
equivalentes dans un voisinage e donne. Cette idee est illustree par Texemple du ta- 
bleau 2.1, dans lequel nous considerons deux detecteurs de points, kmax est le nombre 
de points detectes dans I'image li par chacun d'eux. On a alors par exemple, pour 
deux distances ai et a2 telles que ai < a2 < £ : 



Detecteur 


f^max 


Dij{Pi,k)l<k<kmax 


Rh 


n°l 


8 


ai 


ai 


ai ai ai ai 


ai 


ai 


«1 

9£ 


n°2 


8 


a2 


a2 


Oi2 Oi2 OL2 OL2 


Oi2 


Oi2 


02 

9£ 



Table 2.1 - Proprietes de la mesure de repetabilite : exemple 1. 



II est clair que le detecteur le plus precis (celui qui est associe a la distance ai dans 
Texemple) possede le meilleur score de repetabilite i?f^ ; 

Afi"ecter aux {Ni — nfj) points non repetes la distance £ (cf. Tequation 2.4) permet 
de tenir compte du pourcentage de points repetes par rapport au nombre total de 
points testes. Cette idee est illustree par le tableau 2.2 : 



Detecteur 


f^max 


Dt^{Pi,k)l<k<kmax 


Rlj 


n°l 


3 


£ £ £ 

3 3 3 


^ ~ 0.08 


n°2 


8 


f 1 f £ £ £ £ £ 


^c.0.19 



Table 2.2 - Proprietes de la mesure de repetabilite : exemple 2. 



Ponderer le critere i?f^ par nf^ permet de privilegier, dans une certaine mesure, un 
detecteur tres repetable mais imprecis, a un detecteur moins repetable mais plus 
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precis, comme le montrent les exemples n°l et n°2 du tableau 2.3. Cela permet 
egalement de favoriser les echantillons de points les plus grands, comme le montrent 
les exemples n°2 et n°3. 



Detecteur 


f^max 


Dii{Pi,k)l<k<kmax 


Rl, 


n°l 


6 


£ £ £ £ c- p 
4 4 4 4 t t 


1 
10 


n°2 


6 


S S S S S 6 

2 2 2 2 2 2 


i 

14 


n°3 


5 


esses 
2 2 2 2 2 


i 
12 



Table 2.3 - Proprietes de la mesure de repetabilite : exemple 3. 

- Le choix de rendre symetrique le critere i?f le rend plus fiable dans le cas d'un 
systeme mal conditionne, lorsque Ni <^ Nj par exemple. 

Signalons enfin que le choix du voisinage e depend de la precision choisie pour la 
detection. En effet, si a est la precision sub-pixel utilisee, alors pour obtenir une mesure 
de repetabilite dans un voisinage de i pixels (en connexite-8), il est necessaire de respecter 
la contrainte suivante : 



a 



iV2<e<a{i + l)V2 



(2.7) 



Dans le cadre de notre etude, les detecteurs seront implementes en precision demi- 
pixel, soit a — ^. Si Ton souhaite chercher le point detecte parmi les voisins directs du 

pixel predit {% — 1), il faudra alors choisir e dans I'intervalle [^, ^/2[. 

2.1.3 Criteres de localisation 

La mesure de localisation d'un detecteur consiste a verifier que les points detectes 
ont une realite physique dans la scene. La qualite de cette mesure est par consequent 
tres importante dans les applications liees a la reconstruction tridimensionnelle ou encore 
au calibrage de cameras. Nous avons choisi ici de nous baser sur deux criteres de loca- 
lisation [Gouet et al., 2000] dont I'importance dependra des applications envisagees : le 
critere de reconstruction projective^ qui met en jeu une distance euclidienne 2D et celui de 
reconstruction euclidienne^ qui lui se base sur une distance euclidienne 3D. 

2.1.3.1 Localisation projective 

Supposons connue la position exacte d'un ensemble de points P de la scene 3D. Soient 
p^xo] I'ensemble des projections de P sur le plan retinien d'une camera, et p^^x I'ensemble 
des points detectes sur I'image de la scene vue par la camera. II sufiit alors de rechercher 
pour chaque point detecte p\^^ le point projete ;?p • le plus proche, puis de considerer 
la distance euclidienne qui les separe. Nous pouvons alors definir un premier critere de 
localisation Lprojectif formalise par : 



iprojectif = '^oy{jnm{dist{p\^x,p^^ 

i 3 



proj 



)}} 



(2.8) 
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Cette mesure est simple a calculer et peut etre rendue encore plus precise en considerant 
les coordonnees reelles et non discretes des projections p^xoy Toute la difficulte de son 
estimation reside dans le choix des points 3D et de leurs projections. Ce point est detaille 
dans la section 2.1.4. 

Ce premier critere se revele precieux dans le cadre du calibrage d'une camera. Si on 
ne tient pas compte de la fiabilite de la methode employee pour Tetalonnage lui-meme, on 
peut dire que plus Lprojectif ^st petit, plus la calibration obtenue sera precise. 

2.1.3.2 Localisation euclidienne 

Le critere ci-dessus s'avere insuffisant lorsque Ton souhaite proceder a la reconstruction 
tridimensionnelle de la scene ; en effet il ne traduit pas la precision de la reconstruction. 
Le traitement se faisant a partir de deux vues de la scene au moins, il faut egalement tenir 
compte de la mesure de repetabilite du detecteur. Nous avons choisi dans cette partie 
de definir une mesure qui exprime directement la precision de la reconstruction. II sera 
ensuite interessant de voir comment evoluent les trois mesures ainsi definies les unes par 
rapport aux autres. 

Supposons que nous ayons a notre disposition au moins deux vues de la scene, la 
calibration des cameras ainsi qu'une methode de mise en correspondance des points. Pour 
obtenir une mesure de localisation specifique a la 3D, il suffit de mettre en correspondance 
les points detectes, de les reconstruire par triangulation, et enfin de les comparer aux 
points P^ de la scene. De maniere similaire a la mesure projective, la mesure de localisation 
euclidienne est alors donnee par : 

ieuclidien = moy{min{di5t(P4construits7 ^^)}} (2-9) 

i 3 

Le choix des points 3D utilises ainsi que les methodes de mise en correspondance et de 
reconstruction sont detailles dans la section suivante. 



2.1.4 Cadre de revaluation 

Dans le cas de la mesure de repetabilite, la methode d'evaluation mise en oeuvre ici 
necessite la donnee d'une sequence d'images couleur d'une scene plane, ainsi que la connais- 
sance de I'homographie Hij reliant les projections de cette scene qui different par leur point 
de vue. Afin de ne pas favoriser le detecteur etudie, Hij doit etre determinee de maniere 
tres precise et independamment des points detectes. Certains auteurs, comme [Schmid, 
1996] utilisent des cibles circulaires tres precisement appariees dans les images et verifiees 
manuellement, puis estiment I'homographie a I'aide d'une methode aux moindres carres 
medians, similaire a celle developpee pour I'estimation de la matrice fondamentale (cf. 
section 7.6.1 du chapitre 7). 

Le principal inconvenient de cette methode est que, meme si elle s'appuie sur des 
appariements precis, elles fait intervenir dans revaluation le processus d'estimation de 
I'homographie. Le resultat est un melange des performances des deux algorithmes. C'est 
pourquoi nous avons choisi de modeliser une scene 3D contenant une texture (une image 
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couleur) que nous plaquons sur un parallelepipede rectangle, comme le montre la figure 
2.2. Dans cette scene, nous positionnons plusieurs cameras virtuelles modelisees selon le 
modele Stenope^. Les parametres intrinseques et extrinseques de ces cameras etant connus, 
la texture 3D pent alors etre projetee sur leur plan retinien par un lancer de rayon. Notons 
que Talgorithme de projection se doit d'eliminer le crenelage afin de ne pas detecter par 
la suite des points qui n'ont pas de realite physique dans la scene 3D. L'homographie du 
plan projectif est ensuite calculee de fagon precise a partir de la projection exacte de 4 
points de la facette, ses sommets par exemple, comme le montre la figure 2.2. 







Figure 2.2 - Modele de la scene tridimensionnelle pour revaluation des detecteurs. 

Pour les sequences d'images prises sous le meme point de vue mais n'ayant pas la meme 
luminosite par exemple, ce cadre d'evaluation devient bien sur inutile, Thomographie du 
plan projectif etant dans ce cas la matrice identite. La mesure de repetabilite est alors 
estimee a partir d'images reelles. 

Les mesures de localisation necessitent quant a elles la donnee de la position de points 
de la scene tridimensionnelle ainsi que de leurs projections dans les images. Nous avons 
choisi comme texture une grille de calibration dont la position des principaux points est 
connue avec exactitude. Pour la mesure basee sur la reconstruction projective, il suffit alors 
de comparer la projection exacte de ces points avec les points detectes dans Timage de la 
facette texturee. En ce qui concerne la reconstruction euclidienne, il s'agit tout d'abord de 
mettre en correspondance les points detectes sur deux images. Une solution est de mettre 
a profit la connaissance complete que nous avons de la calibration : nous apparions les 
points les plus repetables dans un petit voisinage. La reconstruction est ensuite realisee 
par triangulation des points apparies. Enfin la mesure de localisation est obtenue a partir 
des distances des points reconstruits a la facette. 

Choix du detecteur de reference 

Nos deux detecteurs sont implementes ici en sub-pixel. Afin d'etre a meme de classifier 
les resultats obtenus, nous devons aussi appliquer notre evaluateur a un detecteur qui a 
fait ses preuves et qui nous servira de reference. Nous avons choisi le detecteur de Harris 



^Le modele Stenope est introduit a la section 7.1.1 du chapitre 7. 
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et Stephens dans sa version precise car il a ete elu le plus stable et le plus repetable des 
detecteurs de points d'interet en niveau de gris [Schmid et al., 1998]. 

2.2 Etude comparative des detecteurs couleur 

Dans cette partie, nous comparons les deux detecteurs couleur et le detecteur Harris 
precis, grace aux criteres mis en place dans la section precedente. Les deux detecteurs 
couleur sont compares au detecteur en niveau de gris mais egalement compares entre eux. 
Le lecteur pent voir dans la section 2.2.1 des exemples de points extraits de differentes 
images de reference, a Taide des deux detecteurs couleur. Dans la section 2.2.2, nous 
estimons la mesure de repetabilite sur plusieurs sequences d'images, obtenues en appliquant 
a ces images de reference les principales transformations de Timage telles que la rotation, 
le changement de luminosite, le changement d'echelle, le changement de point de vue. 
La stabilite au bruit de la camera est egalement testee. Les mesures de localisation sont 
etudiees dans la section 2.2.4 pour la reconstruction projective et dans la section 2.2.5 
pour la reconstruction euclidienne. 

2.2.1 Exemples d'images et de detections 

Nous presentons dans cette section les images de reference qui vont etre utilisees pour 
la realisation de notre etude. L'image "Lezard" est caracterisee par beaucoup de texture 
alors que "Salle robotique" et "Bureau" presentent un grand nombre de contours. La 
figure 2.3 montre les points Harris couleur obtenus ; 472 points sont extraits sur "Lezard", 
493 sur "Salle robotique" et 474 sur "Bureau". Pour les coins couleur (figure 2.4), 457 
coins sont extraits sur "Salle robotique", 438 sur "Lezard" et 457 sur "Bureau". Comme 
cela est explique en detail a Tannexe B, ces images sont disponibles en couleur mais aussi 
en niveau de gris, pour pouvoir detecter les points a partir du detecteur Harris Precis en 
niveau de gris. Certaines de ces images monochromatiques ont ete obtenues en considerant 
la moyenne des trois plans couleur. 

Dans toutes les experiences menees et pour tous les detecteurs, nous nous sommes at- 
taches a travailler avec un nombre de points compris entre 400 et 500, les images retiniennes 
ne depassant pas la dimension (400 x 400). La detection a ete realisee en precision demi- 
pixel pour les trois detecteurs (cf. annexe C). 

2.2.2 Mesure de la repetabilite 

Pour chacun des types de transformation, nous presentons 2 graphes : le premier cor- 
respond a la mesure de repetatibilite R^ entre l'image de reference et l'image transformee, 
et cela pour les 3 detecteurs. Le second represente uniquement le pourcentage de points 
repetes associe. L'interpretation simultanee de ces 2 graphes permettra par exemple de 
distinguer un detecteur plus precis dans un voisinage £, parmi plusieurs detecteurs qui 
repetent un pourcentage de points equivalent. Ces deux graphes sont toujours accompagnes 
de quelques unes des vues utilisees, l'image de reference etant a chaque fois entouree d'un 
cadre plus epais. 
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Figure 2.3 - Un exemple de points Harris couleur sur les images "Salle rohotique", 
"Lezard" et "Bureau". 
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Figure 2.4 - Un exemple de coins couleur sur les images ^'Salle rohotique'% ^'Lezard'^ et 
^'Bureau'\ 



2.2. Etude comparative des detecteurs couleur J^l 

Les sections suivantes etudient la repetabilite de chacun des detecteurs par rapport aux 
principales transformations de Timage. La rotation image est traitee a la section 2.2.2.1, le 
changement de luminosite a la section 2.2.2.2, le changement d'echelle a la section 2.2.2.3 
et le changement de point de vue a la section 2.2.2.4. 

2.2.2.1 Rotation image 

Pour obtenir une sequence de rotations image, nous avons fait pivoter la camera vir- 
tuelle autour de son axe optique, en lui appliquant 9 rotations de 20° jusqu'a 180°. Le 
lecteur peut voir les resultats de mesure de repetabilite aux figures 2.5 et 2.6. Les images 
de la premiere ligne representent Timage de reference suivie de 4 images ayant subi une 
rotation image. Nous avons choisi dans les exemples une erreur de localisation s de 1, ce 
qui indique, si Ton se refere a Tequation 2.7, que le point detecte peut etre trouve chez 
Tun des pixels voisins du pixel predit dans le cas d'un lissage en precision demi-pixel. Le 
premier graphe de chaque figure correspond a la mesure de repetatibilite i?^. Le second 
represente uniquement le pourcentage de points repetes. 

Les resultats obtenus sur les deux sequences montrent clairement que le detecteur 
Harris couleur est le plus repetable face aux rotations image. Le detecteur de coins couleur, 
quant a lui, obtient des resultats variables d'une sequence a Tautre. Notons aussi que les 
resultats se degradent globalement lorsque Tangle de rotation augmente, sauf pour la 
rotation de 180°. Le second graphe nous indique alors que cette degradation semble plutot 
due a une diminution de la precision des detections, puisque les pourcentages de points 
repetes restent globalement les memes. La zone de recherche se limitant ici aux premiers 
voisins {e — \\ nous pouvons en conclure qu'en augmentant Tangle de rotation, de plus 
en plus de points detectes se retrouvent dans le voisinage direct du point predit. 

2.2.2.2 Changement de luminosite 

Dans cette partie, nous passons en revue deux types de changement de luminosite : 

- JJn changement affine de luminosite selon le modele a 6 parametres de Finlayson 
[Finlayson et al., 1994]. Les images "Lezard" et "Salle robotique" ont ete modifiees 
synthetiquement a 10 reprises, en augmentant inegalement les niveaux de gris de 
chaque plan {R,V,B}. L'equation 2.10 montre les 6 parametres afiines utilises ici : 

i?^ = 0.2i? + 0.08i Vi = 1..10 

y/ = 0.8y + 0.02i Vi = 1..10 (2.10) 

Bl = 0.5B + 0mi Vi = 1..10 

Les images originales suivie de quelques unes de ces transformations sont visibles 
aux figures 2.7 et 2.8. Pour indication, les images intermediaires des deux sequences 
sont a dominante verte et les dernieres a dominante rouge ; 

Un changement uniforme de luminosite en faisant varier Touverture du diaphragme 
de la camera. On obtient pour Timage "Bureau" une sequence de 10 images naturelles 
d'intensites lumineuses difierentes. Une partie d'entre elles est montree a la figure 
2.9. L'image de reference est la troisieme parmi les cinq images representees et a ete 
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Figure 2.5 - Sequence ^'Lezard^^ : Repetabilite B} suivant 9 rotations image. 
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Figure 2.6 - Sequence ''Salle robotique^^ : Repetabilite B} suivant 9 rotations image. 
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obtenue a partir d'une ouverture de diaphragme de 4, ce qui correspond a une image 
ni tres sombre ni tres claire. 

Les mesures de repetabilite obtenues sont beaucoup plus faibles que celles obtenues 
pour les rotations image a la section precedente, nous pouvons d'ores et deja noter que les 
3 detecteurs ont une repetabilite excellente face aux changements affines de luminosite. 
Notons egalement que pour les detecteurs couleur, le traitement ne semble pas favoriser 
un plan couleur plus qu'un autre, en effet les mesures de repetabilite sont globalement 
constantes quelle que soit la transformation affine appliquee. Les deux premiers tests (cf. 
figures 2.7 et 2.8) montrent cependant clairement la superiorite du detecteur Harris en 
niveau de gris face aux changements affines de luminosite. Ce resultat s'explique par le 
nombre moins important de degres de liberte du modele d'illumination lorsqu'on travaille 
en niveau de gris. 

Quant aux resultats concernant les changements uniformes de luminosite (cf. figure 
2.9), nous constatons que les resultats se degradent rapidement des que Timage est sur/sous 
exposee, le pourcentage de points repetes chutant tres rapidement jusqu'a 50%. Nous 
voyons ici que les detecteurs couleur, et en particulier le detecteur Harris couleur, donnent 
les meilleurs resultats. 



2.2.2.3 Changement d'echelle 

Pour obtenir un changement d'echelle, nous avons fait subir a la camera virtuelle 9 
translations selon son axe optique vers les images "Lezard" et "Salle robotique" . Quelques 
exemples des images obtenues (les images de reference etant les dernieres) et les mesures 
de repetabilite pour e — 1 sont visibles aux figures 2.10 et 2.11. La detection a ete realisee 
dans tous les cas avec les memes parametres de lissage gaussien. 

Au vu des resultats obtenus, tous les detecteurs semblent tres sensibles a un change- 
ment d'echelle. Les mesures de repetabilite sont en effet globalement superieures a celles 
obtenues aux sections precedentes et les pourcentages de points repetes chutent tres rapi- 
dement. On peut neanmoins remarquer que les detecteurs couleur donnent les meilleurs 
resultats, quelles que soient les sequences d'images. 85% des points sont repetes avec le 
detecteur de Harris Couleur pour le dernier changement d'echelle, qui correspond au fac- 
teur d'echelle le plus faible (d'une valeur de 2, se referer a la section 1.2.2.2 du chapitre 

1)- 



2.2.2.4 Changement de point de vue 

Pour mesurer la repetabilite des detecteurs face a un changement de point de vue, la 
camera virtuelle a ete deplacee 9 fois selon une rotation autour de la facette, en veillant 
a viser approximativement son centre de fagon a en voir la plus grande partie. Le lecteur 
peut voir quelques exemples des images obtenues aux figures 2.12 et 2.13 sur les images 
"Lezard" et "Salle robotique" . 

Les resultats se degradent pour les 3 detecteurs au fur et a mesure que le deplacement 
de la camera augmente. Nous constatons que les deux detecteurs couleur obtiennent les 
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Figure 2.7 - Sequence ^'Lezard" : Repetabilite B} suivant 10 changements affines de lumi- 
nosite. 
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Figure 2.8 - Sequence ^'Salle robotique'^ : Repetabilite R^ suivant 10 changements affines 
de luminosite. 
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Figure 2.9 - Sequence ^'Bureau'^ : Repetabilite B} suivant 10 changements uniformes de 
luminosite. 
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Figure 2.10 - Sequence ^'Lezard'^ : Repetabilite B} suivant 10 changements d^echelle. 
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Figure 2.11 - Sequence ^'Salle robotique^^ : Repetabilite B} suivant 10 changements 
d^echelle. 
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Figure 2.12 - Sequence ^'Lezard^^ : Repetabilite R^ suivant 9 changements de point de vue. 
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Figure 2.13 - Sequence ^'Salle robotique'^ : Repetabilite R^ suivant 9 changements de point 
de vue. 
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meilleurs result at s. 



2.2.2.5 Bruit 

Les sequences bruitees ont ete obtenues en appliquant un bruit blanc gaussien avec 
plusieurs valeurs de variance sur les images "Bureau" et "Lezard". En couleur, les trois 
plans ont ete bruites simultanement. Pour Timage "Bureau" non directement disponible 
en niveau de gris, le bruit a ete superpose a Timage obtenue par moyenne des trois plans 
couleur non bruites. Quelques vues et les resultats de repetabilite sont visibles aux figures 
2.14 et 2.15. Les graphes montrent que rinformation couleur ameliore nettement la qualite 
de la detection, puisque c'est le detecteur Harris en niveau de gris qui ofire les moins bons 
resultats. Ainsi, realiser la detection a partir de plusieurs plans rend le calcul plus stable 
face au bruit. 



2.2.3 Precision de la detection 

II nous a semble interessant d'observer comment se comportent nos trois detecteurs 
lorsque Ton fait varier le rayon de voisinage e, Les resultats de la figure 2.12 ont ete obtenus 
pour un rayon de voisinage £ de 1. Nous avons repris la meme image de reference ainsi que 
la vue associee au point de vue n°5. Les mesures de repetabilite ont alors ete calculees en 
fonction de e. En accord avec la formule de Tequation 2.7, nous Tavons fait varier entre 1 
et 6 pixels, la detection ayant ete realisee en demi-pixel. Les mesures obtenues sont visibles 
a la figure 2.16. II va sans dire que les resultats s'ameliorent lorsque Ton tolere une plus 
grande erreur de localisation, le nombre de points repetes augmentant avec e. 



2.2.4 Mesure de la localisation projective 
2.2 A A A partir d'images synthetiques 



Afin d'efi'ectuer la mesure de localisation projective, nous utilisons en guise de texture 
3D une grille de calibration pour laquelle la position des points determinants (ceux qui ont 
toutes les chances d'etre detectes dans la suite du traitement par chacun des detecteurs) 
est connue avec precision. Le lecteur pent voir a la figure 2.17 la grille utilisee sous quelques 
points de vue. Le graphe associe montre les mesures de Lprojectif obtenues. En premier lieu, 
notons que la mesure de localisation obtenue diminue avec le changement de point de vue ; 
elle devient meme tres faible pour la vue n°10 qui correspond a la derniere image de la 
figure. Cela ne traduit pas une augmentation de la precision de la detection avec la rotation, 
mais seulement une alteration des distances entre points, due a la projection perspective. II 
conviendra done dans cette etude d'observer uniquement le comportement des detecteurs 
les uns relativement aux autres. Les deux detecteurs couleur donnent globalement les 
meilleurs resultats. Le detecteur de coins couleur est nettement superieur aux deux autres, 
ce qui montre que c'est lui qui permet de detecter les points le plus precisement. Par 
consequent, nous preconisons son utilisation pour des applications tel que le calibrage des 
cameras. 
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Figure 2.14 - Sequence ^'Bureau" : Repetabilite B} suivant 7 images hruitees. 
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Figure 2.15 - Sequence ^'Lezard'^ : Repetabilite B} suivant 1 images bruitees. 
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Figure 2.16 - Paire ^'Lezard" : Repetabilite suivant 8 rayons de voisinage e. 
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Figure 2.17 - Localisation projective suivant 10 points de vue. 
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2.2.4.2 Bruit 

La figure 2.18 montre les mesures de localisation obtenues sur les images de la section 
precedente, auxquelles nous avons ajoute un bruit blanc gaussien de variance egale a 200. 
Les resultats sont globalement comparables a ceux obtenus a la section precedente a partir 
des images synthetiques. 
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Figure 2.18 - Localisation projective suivant 10 points de vue avec bruit. 



2.2.5 Mesure de la localisation euclidienne 



2.2.5.1 A partir d'images synthetiques 



Pour calculer la mesure de localisation euclidienne, nous avons utilise les memes sequences 
d'images qui ont servi a la mesure de la localisation projective face aux difierents points 
de vue avec et sans bruit. Pour chacune des deux sequences, 9 vues ont ete mises en cor- 
respondance avec la vue de reference (la derniere image de chaque figure) en exploitant la 
mesure de repetabilite, a partir de la methode d'appariement detaillee a la fin de la section 
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2.1 A. La reconstruction euclidienne a ete realisee suivant deux erreurs de repetabilite e 
(s = 1 et £ = 2). La figure 2.19 montre les resultats obtenus. D'un point de vue general, 
nous constatons que quels que soit le detecteur employe, les resultats s'ameliorent lorsque 
le point de vue s'eloigne du point de vue de reference. Ce resultat est normal dans la 
mesure ou la precision de la triangulation augmente avec Tecart de points de vue. 

Le calcul avec les deux seuils de repetabilite e montre egalement que la repetabilite 
d'un detecteur intervient dans la precision de la reconstruction 3D. Ainsi nous obtenons 
de meilleurs resultats pour Terreur e la plus petite. Nous constatons enfin que le detecteur 
de coins couleur ne donne pas les meilleurs resultats, alors qu'il etait le plus fiable pour 
la reconstruction projective. II faut justement attribuer ce resultat a la relative mauvaise 
repetabilite de ce detecteur face aux changements de points de vue (se referer aux fi- 
gures 2.12 et 2.13). Quant aux detecteurs Harris precis, les resultats semblent globalement 
meilleurs lorsque Ton tient compte de Tinformation couleur. 

2.2.5.2 Bruit 

La figure 2.20 montre les mesures de localisation euclidienne obtenues sur les images 
de la section precedente, auxquelles nous avons ajoute un bruit blanc gaussien de variance 
egale a 200. Les resultats pour les detecteurs couleur sont globalement comparables aux 
resultats precedents. En revanche, ces resultats se degradent avec le bruit en ce qui concerne 
le detecteur en niveau de gris, pour devenir moins bons quel que soit le point de vue. 



2.2. Etude comparative des detecteurs couleur 
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Figure 2.19 - Mesures de localisation euclidienne suivant 9 points de vue, avec e—1,2. 
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Figure 2.20 - Mesures de localisation euclidienne suivant 9 points de vue avec bruit, avec 

6=1,2. 
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2.3 Conclusion 

Dans cette partie, nous avons mene une evaluation comparative des deux detecteurs 
de points que nous avons mis en place pour la couleur. Les criteres utilises ici sont la 
repetabilite et la localisation (projective et euclidienne) des detecteurs. Les mesures ont 
ete realisees sur les detecteurs couleur ainsi que sur le detecteur Harris precis en niveau 
de gris, que nous avons considere comme notre detecteur de reference. 

Les resultats obtenus a travers les principales transformations de Fimage sont globale- 
ment probants, puisqu'a chaque experience, les mesures de repetabilite et de localisation 
sont meilleures que celles obtenues avec le detecteur noir et blanc pour au moins Tun des 
deux detecteurs couleur, excepte pour les changements affines de luminosite ou le detecteur 
en niveau de gris obtient les meilleurs resultats. L'information couleur est visiblement plus 
riche que les seuls niveaux de gris. Les resultats decevants obtenus pour les changements 
affines de luminosite s'expliquent par le fait que le cadre de revaluation est simplifie en 
passant aux niveaux de gris. Remarquons egalement que ces resultats ont ete observes 
pour diverses images issues de capteurs difierents (la liste des capteurs employes selon 
rimage est presentee a la table B.l de Tannexe B). 

La comparaison entre les deux detecteurs couleur doit etre beaucoup plus nuancee. En 
efi'et, le detecteur Harris precis couleur semble mieux adapte aux images texturees, dans 
la mesure ou les points detectes ne sont pas necessairement des coins. En revanche, le 
detecteur de coins couleur se revele plus adapte aux images d'interieur qui contiennent en 
general beaucoup de contours. Les experiences menees ont neanmoins permis de montrer 
que le detecteur de coins apparait comme equivalent au detecteur de Harris face aux chan- 
gements d'echelle, mais moins repetable en ce qui concerne les rotations, les changements 
de luminosite, les changements de point de vue et meme le bruit. Le detecteur de Harris 
couleur sera done utilise par la suite pour ce qui est de Tetape de mise en correspondance. 

En ce qui concerne les mesures de localisation, nous sommes egalement arrives a la 
conclusion que le choix entre ces detecteurs depend aussi du type d'application envisage. Le 
detecteur de coins possede une meilleure localisation projective, done semble mieux adapte 
au calibrage de cameras par exemple. En revanche, le detecteur Harris precis couleur a une 
meilleure localisation euclidienne (en partie parce que sa repetabilite est aussi meilleure 
face aux changements de points de vue) et sera done preconise pour la reconstruction 3D. 

Nous venons de prouver la superiorite des detecteurs couleur suivant les criteres de 
repetabilite et de localisation mis en place. Nous les utilisons done dans la suite de nos tra- 
vaux et le choix entre le detecteur Harris couleur et le detecteur de coins couleur dependra 
du but recherche. 
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Deuxieme partie 



Mise en correspondance d'images 
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Chapitre 3 

Caracterisation locale des points 
d'interet - Etat de Part 



Nous passons en revue dans ce chapitre les differents travaux qui ont donne lieu a des 
methodes permettant la caracterisation de points dHnteret, aussi bien en niveau de gris 
qu^en couleur. Un certain nomhre des approches decrites extrait une information locale 
autour du point dHnteret, mais travaille uniquement sur des images en niveau de gris. 
En parallele, les quelques methodes rencontrees exploitant Vinformation couleur extraient 
une information beaucoup plus globale. Elles se revelent cependant peu adaptees a la ca- 
racterisation et a la mise en correspondance de points dHnteret. 
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3.1. Introduction aux invariants 13 

Dans les chapitres precedents, nous avons vu comment detecter les points d'interet 
de rimage. Ces points ont ete retenus parce qu'a priori ils sont a des endroits ou 
le signal presente un contenu informatif important. II s'agit maintenant de valider 
cette hypothese en capturant cette information. Pour ce faire, il faut decrire localement la 
fonction signal au voisinage d'un point d'interet, de la maniere la plus precise possible. Le 
descripteur obtenu doit posseder plusieurs caracteristiques pour que la mise en correspon- 
dance soit efficace : il doit etre rapide a calculer, peu important en taille et pourvu d'une 
mesure de similar it e adapt ee. 

Pour etre le plus complet possible, la description recherchee doit egalement etre inva- 
riante aux principales transformations de Timage, les vues considerees pouvant etre quel- 
conques. D'autre part, le support choisi est un support couleur. Nous avons demontre au 
chapitre 2 Tinteret que cette information supplementaire pent apporter dans la detection 
des points d'interet. Nous allons maintenant tenter de I'exploiter pour enrichir les ca- 
racterisations locales de points existantes. 

Nous rappelons a la section 3.1 quelques notions utiles sur la theorie des invariants 
en Vision par Ordinateur. Puis la section 3.2 presente un etat de I'art des differentes 
methodes de caracterisation existant en niveau de gris, tant dans le domaine spatial que 
dans le domaine frequent iel. A la section 3.3, nous passons en revue les rares methodes 
de caracterisation couleur que nous avons rencontrees. Nous verrons que ces quelques 
methodes sont pour la plupart trop globales pour etre efficaces pour la caracterisation de 
points d'interet. Le fameux probleme de la Constance des couleurs sera egalement aborde. 
II est en effet fondamental en couleur de mettre en place des modeles d'illumination per- 
mettant de caracteriser efficacement une image independamment de la source lumineuse 
qui eclaire la scene. Enfin, les avantages et les inconvenients des approches qui auront ete 
abordees sont discutes dans la conclusion. 



3.1 Introduction aux invariants 



Nous nous contentons ici d'une introduction sommaire a la theorie des invariants. Pour 
plus d'informations, le lecteur pent consulter [Mundy et Zisserman, 1992; Weiss, 1993; Gros 
et Quan, 1993]. 

En Vision par ordinateur, les deux types de transformations generalement etudiees 
sont les transformations de la scene tridimensionnelle vers I'image et les transformations 
de I'image. Dans [Burns et al., 1990], le theoreme de Burns montre qu'il n'existe pas 
d'invariants pour ce premier type de transformation. II en existe cependant pour certaines 
classes geometriques d'objets 3D, ce sont les invariants projectifs. De nombreux travaux 
ont ete realises sur ce type d'invariants; on pent consulter entre autres [Morin, 1993; 
Zisserman et al., 1995; Quan et Mohr, 1995; Laveau, 1996]. 

Considerons maintenant les transformations de I'image. Soient deux vues I\ et I2 d'une 
meme scene, prises dans des conditions differentes (differents parametres intrinseques et 
extrinseques des cameras, changement d'illumination, etc). Nous nous interessons alors 
aux deux types de transformation de I'image suivants : 
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1. Les transformations photometriques de Fimage, soit : 

hix.y) = f{Ii{x,y)) 

Cette formulation traduit un changement d'illumination et opere done uniquement 
sur le signal de Timage. / est traditionnellement une fonction de translation, une 
fonction affine des niveaux de gris ou plus generalement une transformation mono- 
tone; 

2. Les transformations geometriques de Timage, soit : 

hix.y) = Ii{g{x,y)) 

g pent tout simplement etre une translation et plus generalement, dans le cas d'une 
scene plane, une homographie du plan projectif. Si Ton considere le changement de 
point de vue dans une scene quelconque, alors g n'existe pas. 

Le probleme qui se pose alors consiste a calculer des invariants en tenant compte de ces 
transformations. Differentes methodes permettant de le faire existent, citons notamment 
les methodes infinitesimales qui reposent sur les groupes de Lie [Van Gool et al., 1995] 
et les methodes par generalisation et contrainte [Gros et Quan, 1992; Schulz-Mirbach, 
1994]. Dans le cas ou aucun invariant n'existe, il est possible de faire appel aux quasi- 
invariants. Ce type d'invariant est du a Binford et remonte a la fin des annees 60. On peut 
consulter [Binford et Lewitt, 1993] pour une definition plus precise. Retenons seulement 
une propriete qui nous sera tres utile par la suite : les invariants au groupe des similitudes 
sont des quasi-invariants pour une transformation perspective, i.e. qu'ils sont localement 
invariants a une telle transformation. 

Dans la suite de notre etude, nous considerons essentiellement les transformations 
de rimage suivantes : la translation, la rotation, le changement d'echelle, le changement 
d'illumination et le changement de point de vue. 

3.2 Caracterisation en niveau de gris 

Parmi toutes les approches iconiques de caracterisation de points d'interet, une methode 
simple mais surement la plus repandue existe : un point est decrit par une zone d'interet de 
I'image ("template" en anglais), a savoir le niveau de gris qui lui est associe ainsi que ceux 
de ses pixels voisins. Ces valeurs sont stockees directement dans un vecteur. La methode 
peut egalement etre appliquee aux derivees de I'image, comme par exemple au gradient 
[Crouzil et al., 1996] ou encore a I'image du laplacien [Nishihara, 1983]. Cette methode 
de caracterisation est traditionnellement associee a la methode de mise en correspondance 
par correlation ("template matching"). EUe sera plus amplement decrite dans la section 
5.1.2.1 du chapitre 5. Notons pour le moment que son principal desavantage est qu'elle 
n'est pas invariante aux transformations classiques de I'image enoncees plus haut. 

Le point peut egalement etre decrit par I'histogramme des niveaux de gris des voisins. 
Cette caracterisation est interessante car elle est invariante a certaines des transformations 
de I'image, comme les transformations euclidiennes, le changement d'echelle (dans une 
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certaine mesure) et il est possible de Tadapter aux changements d'intensite. EUe est meme 
tres discriminante lorsqu'elle est appliquee a des images en couleur. C'est pourquoi nous 
la detaillons dans la section 3.3 reservee a la couleur. 

De nombreuses autres methodes de caracterisation locale existent. Nous presentons les 
principales dans les quatre prochaines sections. II s'agit en premier lieu des caracterisations 
travaillant dans le domaine spatial, comme les invariants different iels, les moments statis- 
tiques ou encore les invariants non parametriques. L'image etant un signal, nous abordons 
egalement les descriptions frequentielles, dans la derniere section. 

3.2.1 Les invariants differentials 

3.2.1.1 Le jet local 

Une fonction pent etre approximee localement par ses derivees. Si Ton sait les calculer 
en un point jusqu'a Tordre n, alors la serie de Taylor decrit cette fonction jusqu'a cet 
ordre, comme le montre Tequation 3.1 ci-dessous : 

/(j:o + ^, yo + y) = /(^o, yo) + ^^/(^o, yo) + y^/(^o, yo) + • • • 

(3.1) 

II est done possible de decrire une image en un point par Fensemble des derivees en 
ce point. Sous forme de vecteur, cet ensemble caracterise la geometrie locale du voisinage 
du point. Dans [Koenderink et Van Doom, 1987], Koenderink a utilise cette idee et a 
nomme le vecteur jet local. Les derivees sont calculees numeriquement de maniere stable 
en utilisant un filtre passe-bas tel que la gaussienne et ses derivees (cf. annexe C). Le jet 
local, note Jni^^ y, cf)^ est alors defini a Tordre n, pour le point (j:, y) et avec la taille a de 
la gaussienne de la fagon suivante : 

Jn{x, y, a) = {In...iu (^^ V^ ^)/^ = 0, . . . , n} (3.2) 

ou Ii^...ij^ (a;, y, a) designe la derivee k'^^'^^ de Fimage par rapport aux variables ii^. . . ^i^ 
{x ou y dans notre cas). Si les derivees sont calculees jusqu'a Tordre 2, le jet local sera 
de dimension 5 et de dimension 9 jusqu'a I'ordre 3. On parle egalement de jet local multi- 
echelle lorsque Ton considere I'ensemble des derivees calculees pour plusieurs tailles de 
gaussienne. 

Notons enfin qu'il existe une autre approche assez repandue et notamment developpee 
dans [Murase et Nayar, 1995] pour decrire le voisinage de points contenus dans des scenes 
naturelles. Murase et Nayar partent du principe que les pixels du voisinage sont plus ou 
moins correles. lis procedent alors a une analyse en composantes principales, afin d'eliminer 
I'information redondante. Cette caracterisation s'avere en fait equivalente a celle que nous 
venons de decrire, il a en effet ete montre dans [Hancock et al., 1992] que c'est une tres 
bonne approximation des derivees du jet local. 

Le principal inconvenient de la caracterisation presentee ici est que le vecteur n'est pas 
invariant aux diverses transformations de l'image. Nous presentons dans les paragraphes 
suivants plusieurs methodes permettant de corriger ou au moins d'ameliorer ce probleme. 
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3.2.1.2 Les filtres directionnels 

Le jet local presente a la section precedente peut etre interprete comme la projection 
du signal sur la base constituee de la gaussienne et de ses derivees. Dans [Freeman et 
Adelson, 1991], Freeman et Adelson ont montre qu'a partir de cette base, il est possible 
de calculer ce qu'ils appellent des filtres directionnels, c'est a dire des filtres definis par 
des derivees calculees dans n'importe quelle direction. II est done possible de recalculer 
le jet local en considerant des directions difierentes, afin de tenir compte d'une eventuelle 
rotation appliquee a Timage. La direction du gradient, lorsque celui-ci n'est pas nul, est une 
solution possible puisqu'elle traduit Forientation de Timage. Nous donnons a Tequation 
3.3 les 3 premieres derivees In obtenues a I'ordre n dans la direction 9 : 

i^{e) = i^cos{e) + iy s'm{e) 

hie) = Ixx cos2(^) + 2hy sin(e) cos(e) + lyy sin2(e) (3.3) 

h{d) = IxxxCos^{d) + 3IxxyCos^{9)sin{9) + 3Ixyysin^{9)cos{9) + Iyyysin^{9) 

Le principal inconvenient de cette methode est que le resultat depend fortement du cal- 
cul de Tangle ^, qui represente une importante source d'instabilite. Pour plus de precisions, 
consulter [Rao et Ballard, 1995] qui utilisent cette methode et calculent ainsi un jet local 
ajustable invariant en rotation. 



3.2.1.3 Les invariants de Hilbert 

Hilbert [Hilbert, 1890] a montre que n'importe quel invariant au groupe des deplacements 
50(2) d'ordre fini pouvait s'exprimer comme un polynome d'invariants irreductibles repo- 
sant sur la combinaison de derivees du jet local. [Koenderink et Van Doom, 1987; Salden 
et al., 1992; Florack et al., 1994; ter Haar Romeny, 1996] ont repris cette idee et ont 
propose de caracteriser un point par un vecteur contenant un ensemble complet de ces 
invariants. Si Ton considere une image scalaire, ces invariants representent Tensemble de 
base des primitives qui permettent de decrire toutes les proprietes locales intrinseques de 
rimage. Get ensemble est bien connu pour ses proprietes du premier et du second ordre 
et est rendu independant de la rotation image s'il est exprime en coordonnees de Gauge 
comme suit : 

/ Irj Irjrj /^^ I^^ (3.4) 

oil T] est le vecteur unitaire tel que rj = ^4 et (^ ± rj. Notons que dans ce systeme 
de coordonnees, nous avons I^ — 0. Les ensembles d'ordre superieur sont beaucoup plus 
compliques. 

Dans le cadre de la caracterisation de points d'interet, il est preferable de considerer, 
d'un point de vue geometrique et/ou numerique, une combinaison de ces cinq invariants, 
plutot que ceux presentes en 3.4. Par exemple I'ensemble suivant s'avere plus performant 
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pour decrire un point en niveau de gris 
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(3.5) 



Ces invariants sont obtenus a partir des elements du jet local de I'equation 3.2 done 
par la convolution du signal avec une gaussienne. II est done envisageable de les calculer 
pour differents supports de gaussienne. 

Cette methode de caracterisation est implementee par Schmid dans [Schmid, 1996], 
pour faire de Tindexation d'images. EUe calcule les invariants jusqu'a Tordre 3 pour obtenir 
une caracterisation suffisamment riche et les exprime en notation d'Einstein^. Cela donne 
le vecteur note ici Vrot de neuf invariants suivant : 
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(3.6) 



ou Eij represente le tenseur canonique anti-symetrique de Levy-Civita tel que 



^12 = —^21 = 1 
£11 = £22 = 



(3.7) 



et oil / represente la fonction de luminance convoluee avec une gaussienne et li la 
sommation des derivees du jet local par rapport a toutes les composantes telle que : 



^i — z_^i ^i — ^x \ ^y 

■^ij ^ A^i A^j -^ij ^ -^xx ~r -^xy H~ -^yx ~r -tyy 



(3.8) 



On a par exemple iVot[l] = Yl>i{hh) — Ix~^Iy <l^i represente la magnitude du gradient. 

Nous venons de presenter deux types de caracterisation locale invariantes a la rotation, 
Tune utilisant le jet local ajustable et Fautre les invariants de Hilbert. Voyons maintenant 
a la section suivante comment rendre ces caracterisations invariantes a d'autres transfor- 
mations de rimage. 



^Se referer a [ter Haar Romeny, 1996] pour une introduction a la theorie des tenseurs et a la notation 
contract ee qui en decoule. 
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3.2.1.4 Autres transformations de Pimage 



Invariance au changement d'echelle 

Comme nous Tavons vu au chapitre 1, un changement d'echelle est du soit au depla- 
cement de la camera soit a un changement de la distance focale de celle-ci, et il pent etre 
decrit par un changement affine (se referer a I'equation 1.8). 

L'appariement de deux images differant d'un changement d'echelle pose plusieurs diffi- 
cultes majeures. Comme pour la detection des points d'interet, il est imperatif de prendre 
en compte dans la caracterisation de ces points le changement de resolution entre les deux 
images et surtout son impact sur les donnees photometriques. 

Schmid montre dans [Schmid, 1996] que le vecteur Vrot de I'equation 3.6 est robuste 
a un changement d'echelle allant jusqu'a 20% et Rao montre dans [Rao et Ballard, 1995] 
que le jet local ajustable tolere quant a lui des changements d'echelle jusqu'a 10%. II est 
done necessaire de mettre en oeuvre d'autres techniques. 

D'apres I'equation 1.9 (cf. chapitre 1), les derivees n-iemes de I'image sont theoriquement 
egales, a un facteur multiplicatif a^ pres. II est done aussi possible de mettre en place des 
invariants au changement d'echelle faisant intervenir un rapport de derivees. Malheureuse- 
ment il s'avere que de tels invariants ne sont guere plus stables a un changement d'echelle 
que Vrot ou que le jet ajustable [Schmid, 1996]. En effet, supposons que les derivees sont 
implementees numeriquement par convolution avec une gaussienne. Pour effectivement 
calculer un invariant, il est necessaire d'adapter le support de la gaussienne au change- 
ment d'echelle. Le choix de ce parametre permet alors d'effectuer un lissage plus ou moins 
important de I'image et done de la decrire a un certain niveau d'echelle. Comme pour 
la detection des points d'interet, il est imperatif d'envisager une approche multi-echelle 
(cf I'equation 1.11 pour une definition de I'espace echelle). II est ensuite necessaire de 
discretiser cet espace en echelle. Schmid propose de choisir un pas de discretisation qui 
correspond a un changement d'echelle d'au plus 20%, puisque Vrot est stable au change- 
ment d'echelle jusqu'a ce pas. Les invariants definis precedemment (le jet local ajustable et 
le vecteur Vrot) sont done calcules pour plusieurs valeurs de a, ce parametre correspondant 
a une echelle particuliere. 

Cette methode de caracterisation a jusqu'a present ete essentiellement utilisee pour 
faire de I'indexation d'images. Citons par exemple [Rao et Ballard, 1995] qui utilise un 
jet local ajustable defini jusqu'au troisieme ordre et a 5 niveaux d'echelle, soit un vecteur 
invariant a la rotation et au changement d'echelle de 9 x 5 = 45 composantes ; ou encore 
[Schmid, 1996; Dufournaud et al., 2000] qui calculent aussi Vrot pour plusieurs supports 
de gaussienne. 

Invariance au changement de luminosite 

La premiere composante de Vrot etant le niveau de gris du point (eventuellement lisse), 
elle n'est bien sur pas invariante au changement de luminosite. En revanche, il est facile de 
voir que la derivation rend les autres composantes invariantes aux translations des niveaux 
de gris. Si Ton considere les transformations affines, il faut prendre en compte des rapports 
de derivees. En efiet, une transformation affine des niveaux de gris entre deux images /i 
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et I2 se modelise par : 

h{x,y)^ah{x,y)^h (3.9) 

Les derivees n-iemes du signal sont done de la forme : 

lf{x,v)=alt\x,v) (3.10) 

Par consequent, n'importe quel quotient de deux derivees est invariant a cette transfor- 
mation affine. Pour rendre le vecteur v^ot invariant aux transformations affines de niveaux 
de gris, il sufEt done de diviser ehaeune de ses eomposantes iVot[l--8] par la puissanee 
adequate de Tune d'entre elles, la magnitude du gradient par exemple. Le veeteur d'inva- 
riants obtenu propose par [Sehmid, 1996] est done reduit a 9 — 2 = 7 invariants. II et note 
iei 4// : 



^a// 



[0..2] = 






et 4//[3..6] = (7T7T)?'^rot[5..8] (3.11) 



En ee qui eoneerne les autres transformations des niveaux de gris, Floraek fait remar- 
quer dans [Floraek et al., 1994] que les isophotes ne sont pas modifies sous I'aetion d'une 
transformation inversible de luminosite. Jusqu'au deuxieme ordre, il existe deux invariants, 
la eourbure des isophotes k et la eourbure des lignes de plus grande pente /i, exprimees iei 
en notation d'Einstein : 

^ _ eijSkiiii^jkii et /i = '-iililjd^ (3 12) 



Invariance au changement de point de vue 

Le jet loeal ajustable et le veeteur d'invariants Vrot presentes preeedemment sont a la 
fois invariants a la rotation image et au ehangement d'eehelle s'ils sont ealeules dans un 
eadre multi-eehelle. Ces deux types de earaeterisation sont done invariants au groupe des 
similitudes de Timage, et par eonsequent quasi-invariants aux transformations perspeetives 
[Binford et Lewitt, 1993]. lis eonstituent done une earaeterisation robuste aux ehangements 
de point de vue. Nous aurons Toeeasion de eonfirmer eette propriete dans le ehapitre sur 
I'appariement. 



3.2.2 Les moments 

Les moments permettent egalement de earaeteriser une image. En efi'et, d'un point 
de vue stoehastique, eette derniere pent etre vue eomme une distribution aleatoire, et 
par eonsequent pent etre earaeterisee de fagon unique par ses moments. Etant donne une 
image I{x^ y), le moment d'ordre {p + q) est defini dans le eas diseret de la fagon suivante : 

^P. = EE^VA^,y) (3.13) 
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Les moments ont ete utilises pour la premiere fois en 1962 par Hu [Hu, 1962] pour des 
problemes de reconnaissance en Vision par Ordinateur. II a alors ete demontre Fexistence 
de combinaisons de moments qui sont invariantes a la translation, a la rotation et au 
changement d'echelle. 

Teague a introduit en 1980 les moments de Zernike qui utilisent la theorie des po- 
lynomes orthogonaux du meme nom pour decrire une image. Le lecteur peut consulter 
[Teague, 1980; Teh et Chin, 1988] pour un etat de Fart sur les techniques basees sur les 
moments. Freeman et Saleh [Freeman et Saleh, 1988] ont egalement etendu Tutilisation 
des moments invariants en les considerant a la fois dans le domaine spatial et frequentiel, 
permettant ainsi de capturer des informations a divers niveaux. II existe aussi les moments 
de Legendre bases sur les polynomes du meme nom. Une etude plus recente [Kim et Yuan, 
1994] a montre que les moments de Zernike sont les moins sensibles au bruit et les moins 
redondants en information. 

De nombreux travaux comme [Prokop et Reeves, 1992; Reiss, 1993; Flusser et al., 
1994; Van Gool et al., 1996] ont ensuite ete realises sur Tinvariance des moments face aux 
transformations affines des coordonnees et aux changements d'intensite dans des images 
de niveaux de gris. II faut cependant noter que les moments restent tout de meme assez 
sensibles aux occupations. Mais Tinconvenient majeur de ces approches est qu'il est la 
plupart du temps necessaire de calculer les moments a un ordre relativement grand si 
Ton souhaite obtenir une caracterisation suffisamment discriminante. Nous verrons dans 
la section 3.3.2.2 que Tintroduction des moments couleur generalises permet de remedier 
a ce probleme. 

3.2.3 Les invariants non parametriques 

Dans cette section, nous presentons la methode recente developpee par Lan et Mohr 
et basee sur des invariants a la rotation non parametriques [Lan et Mohr, 1997a]. Soient 
deux images /i et I2 differant d'une rotation d'angle c, et deux pixels (ri,^i) et (^2,^2) 
exprimes en coordonnees polaires. Les auteurs partent du principe que Fordre entre deux 
pixels reste inchange sous une rotation de Timage. Ainsi si /i(ri,^i) > /i(r2,^2) alors on 
a egalement hi^i^Oi + c) > 12(^2^ 62 + c). Cette hypothese leur permet de definir pour une 
image / la fonction de comparaison suivante : 

10 smon 

La figure 3.1 illustre cette definition pour n = r2 = r, ^ = et Ai = |. 

Pour obtenir un invariant a la rotation a partir de cette description, les auteurs ap- 
pliquent ensuite les methodes de generalisation et contrainte abordees a la section 3.1. En 
integrant sur le groupe des rotations, ils obtiennent Tinvariant Nj defini ci-apres, pour 
n'importe quel autre couple de points {rs^O + A2) et (r4, ^ + A3) : 

1 f'^'^ 

^/(n,r2,r3,r4,Ai,A2,A3) = -- / \Ci{rue,r2,e + Ai) - Ci{r3,e + A2,n,e + A3)\de 

^7V Jo 

(3.15) 
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Une image avec 
4 niveaux de gris 



La caracterisation non 
parametrique correspondante 



Figure 3.1 - Un exemple de caracterisation non parametrique 

Cette caracterisation a les avantages d'etre invariante a la rotation image ainsi qu'aux 
transformations croissantes de la luminance. EUe est aussi moins sensible au bruit et aux 
occupations que les approches traditionnelles, puisque seul Tordre entre les pixels est 
considere. 

Dans leurs experimentations, Lan et Mohr reduisent Nj a quatre parametres en posant : 
ri — r2 — s^ r^ — r^ — t et A3 = Ai + A2. L'invariant devient : 

1 /"^^ 

7Vj(5,5,t,t, Ai, A2, A1+A2) = — / \Ci{s,e,s,e+/\i)-Ci{t,e+/\2.t,e+/\i+/\2)\de 

^7T Jo 

(3.16) 

15 valeurs sont utilisees pour les rayons et 6 pour les angles, ce qui conduit a un vecteur 
caracteristique contenant 8100 invariants. La grande dimension de ce vecteur impose alors 
de mettre en oeuvre une technique d'appariement specifique : trois tests sont d'abord 
realises pour eliminer la plus grande partie des faux candidats, avant d'employer pour les 
correspondants potentiels restants une metrique plus sophistiquee. 

La methode est testee puis comparee a celle de Schmid utilisant les invariants differentiels 
(presentee a la section 3.2.1.3). Les resultats obtenus montrent Famelioration qu'apporte 
cette technique face aux transformations euclidiennes, aux changements d'intensite et aux 
changements de point de vue. II semble en effet que les invariants non parametriques soient 
moins sensibles au bruit que la methode basee sur les invariants differentiels, qui se doit 
d'utiliser les derivees de Timage jusqu'a Tordre 3 pour etre suffisamment discriminante. 



3.2.4 Les descriptions frequentielles 

3.2.4.1 Les Transformees de Fourier et de Mellin 

La caracterisation d'un signal / la plus connue dans le domaine des frequences est 
sans aucun doute la Transformee de Fourier [Bracewell, 1978], dont nous rappelons la 
formulation continue dans le cas bi-dimensionnel a Tequation 3.17 ci-dessous : 

F{u,v) = 1 1 fix,y)e-'^--+-yUxdy (3.17) 

La transformee de Fourier d'une paire de frequences {u^ v) G TZ^ est caracterisee par 
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une amplitude et une phase. Dans notre etude, Tinteret de son utilisation (dans sa ver- 
sion continue comme discrete) reside dans le fait qu'au moins Tun de ces deux attributs 
reste constant a travers certaines transformations de Timage. Par exemple, sa phase est 
independante de la luminosite des images et son amplitude ne varie pas avec la translation. 
D'autre part, la phase est stable a un changement d'echelle jusqu'a 20% et pent done etre 
mise en oeuvre dans un contexte multi-echelle. 

Des variantes existent sous certaines contraintes, comme notamment la transformee de 
Fourier circulaire [Grace et Spann, 1991], pour laquelle Tamplitude est rendue invariante a 
la rotation. Dans [Reddy et Chatterji, 1996], une methode est egalement developpee pour 
rendre cette caracterisation invariante a la translation, a la rotation et au changement 
d'echelle. 

Un des principaux avantages de la caracterisation basee sur la Transformee de Fourier 
est qu'elle pent etre calculee tres efficacement, en comparaison avec d'autres methodes de 
caracterisation, si Ton met en place son algorithme rapide de calcul. 

II existe egalement une autre transformee, la Transformee de Mellin^ qui s'applique sur 
des nombres complexes dans sa forme la plus generale. EUe est traditionnellement utilisee 
uniquement sur des valeurs imaginaires pures, et sa formulation bi-dimensionnelle pour 
une paire de frequences (u^v) G TZ^ est alors la suivante : 



POO POO 

:{u,v)^ / fix,y)x''^-'y''-'dxdy (3.18) 

Jo Jo 



La Transformee de Mellin pent etre vue comme etant la Transformee de Fourier ap- 
pliquee apres un changement de variable exponentiel. Si elle est utilisee avec des valeurs 
imaginaines pures, alors son amplitude est invariante au changement d'echelle. Comme 
pour la Transformee de Fourier, il en existe une variante, appelee la Transformee de 
Fourier-Mellin^ qui permet d'obtenir en plus I'invariance a la rotation [Sheng et Lejeune, 
1991]. 

Des travaux ont ete realises pour combiner les Transformees de Fourier et de Mellin et 
ainsi obtenir I'invariance a la fois a la translation, a la rotation et au changement d'echelle 
[Casasent et Psaltis, 1980]. Pour un etat de I'art complet sur les Transformees de Fourier 
et de Mellin et plus generalement sur la theorie des invariants, le lecteur pent consulter 
[Wood, 1996]. 

Soulignons enfin I'inconvenient majeur de ces deux types de caracterisation : elles 
imposent une localisation en frequence et non pas en espace, c'est-a-dire qu'elles ne per- 
mettent pas de dire quelles frequences caracterisent un point donne de I'image, selon le 
principe d'incertitude. Elles s'averent done difficilement exploitables telles quelles pour 
caracteriser efficacement les points d'interet, et sont plutot utilisees pour faire de la re- 
connaissance de formes ou de I'indexation d'images. Des travaux ont tout de meme ete 
realises pour les adapter a la localisation en espace; nous presentons ainsi a la section 
suivante la Transformee de Gabor, qui pent etre consideree comme une Transformee de 
Fourier locale en espace. 



3.2. Caracterisation en niveau de gris 



3.2.4.2 La Transformee de Gabor 

Pour obtenir une bonne localisation en espace, il est possible d'adapter la Transformee 
de Fourier avec une fonction de fenetre (on parle alors de Transformee de Fourier a court 
terme ou encore de Transformee de Fourier a fenetre glissante). Cette fonction doit avoir 
la particularite d'etre bien localisee en espace et en frequence, comme typiquement la 
Gaussienne. Ainsi dans [Gabor, 1946], Gabor definit une transformee portant son nom qui 
utilise un fenetrage gaussien permettant d'obtenir une bonne precision a la fois en frequence 
et en espace. Le signal est convolue par un filtre dont Texpression est la suivante : 

G,^^^,{x,y) = e'(-»^-+-«2')-l-e-"^ (3.19) 

Dans le cadre du calcul d'appariements, une egalite de phase entre deux points signifie 
une grande probabilite qu'il s'agisse de points a mettre en correspondance, en sachant 
neanmoins qu'une meme valeur de phase pent apparaitre plusieurs fois pour des points 
differents. Pour etre certain qu'une egalite de phase correspond a un appariement exact, 
une approche multi-echelle s'impose. Toutefois cette mesure est locale en frequence mais 
directionnelle en espace. EUe resiste done malheureusement peu a des rotations et des 
changements d'echelle faibles. Dans [Wu et Bhanu, 1995], Wu a alors propose une implan- 
tation des filtres de Gabor dans plusieurs directions et a plusieurs echelles permettant de 
resoudre ce probleme. Etant donne que ce filtre donne une information locale de la phase 
du signal, une utilisation classique est done par exemple I'estimation de la disparite entre 
deux images [Sanger, 1988; Fleet et al., 1991]. 

II faut tout de meme noter que les resultats obtenus a partir de cette approche 
dependent fortement de la taille de la fenetre employee, c'est-a-dire du support de la 
Gaussienne. En effet, le choix de ce parametre est subordonne a une connaissance a priori 
du signal que Ton desire analyser, information que Ton possede rarement lorsque le signal 
est une image. 



3.2.4.3 Les ondelettes 

La premiere definition de la Transformee en Ondelettes a ete etablie par Grossmann 
et Morlet [Grossmann et Morlet, 1984] en temps et echelle continus. La theorie des On- 
delettes^ repose sur I'idee que le signal pent etre caracterise par difierentes echelles et 
difierentes resolutions. En resume, elle consiste a remplacer le parametre de frequence de 
la Transformee de Gabor par un parametre d'echelle, ce qui conduit a une analyse temps- 
echelle et non plus temps-frequence. L'analyse par ondelettes de la fonction / est definie 
par : 

W^{a, b)^^ [ f{x)i;{^^^)dx (3.20) 

^/a J a 

oil ip est une fonction continue quelconque appelee fonction generatrice de I'ondelette, 
centree en b et d'echelle a. 

L 'inconvenient majeur de la Transformee en Ondelettes telle qu'elle vient d'etre presentee 
est que sa resolution frequentielle est d'autant plus mauvaise que I'echelle est petite. Par 

^Le lecteur peut consulter le livre de Meyer [Meyer, 1992] pour une presentation complete. 



84 Chapitre 3. Caracterisation locale des points dHnteret - Etat de Vart 

exemple, un signal ayant un spectre de frequence etroit et essentiellement localise aux 
hautes frequences ne sera pas bien represente. Une solution a ce probleme a emerge au 
debut des annees 90 avec Tapparition de la theorie des decompositions atomiques (ou 
par paquets) d'ondelettes. Ces methodes ont pour caracteristique commune Tanalyse des 
signaux suivant trois parametres physiques : le temps, la frequence et Techelle. Citons 
notamment la methode de Mallat [Mallat, 1989; Mallat, 1999] qui a egalement etendu 
ses travaux dans le domaine de la Vision par Ordinateur au cas des signaux discrets. 
Comme pour la Transformee de Gabor, il reste neanmoins comme inconvenient le fait 
que les resultats obtenus dependent fortement de la taille du voisinage sur lequel sont 
effectues les calculs. II existe une autre transformee, la Transformee de Wigner qui permet 
un calcul de la frequence en tout point. Nous ne developpons pas cette approche ici car 
la representation de cette transformee est difficile et lourde a calculer et par consequent 
n'est pas adaptee a la caracterisation de points d'interet. 



3.2.5 Bilan 

Nous avons presente dans cette section les principales approches permettant de ca- 
racteriser les points d'interet issus d'une image monochrome. Une grande partie des tech- 
niques developpees travaille directement dans le domaine de Fimage : la correlation, les 
invariants differentiels, les moments, les invariants non parametriques. 

La correlation est la methode de caracterisation la plus ancienne et probablement 
la plus repandue jusqu'a ces dernieres annees. EUe est petit a petit delaissee au profit de 
techniques moins couteuses en temps de calcul et surtout plus robustes aux transformations 
de Fimage telles que la rotation. 

Nous avons egalement rencontre les approches statistiques qui voient Fimage comme 
une distribution aleatoire des niveaux de gris, et qui exploit ent notamment les moments 
ou encore les histogrammes pour caracteriser celle-ci. Quelques travaux ont ete realises 
suivant cette voie, mais nous n'avons pas juge necessaire de les developper outre mesure 
dans cette section, car en realite ces approches s'averent bien plus interessantes lorsqu'elles 
sont appliquees a des images en couleur. Nous ne manquerons done pas d'y consacrer une 
part importante de la prochaine section. 

Viennent ensuite les invariants non parametriques, methode recente et originate qui 
semble faire ses preuves, au vu des resultats presentes. lis permettent en efi'et une ca- 
racterisation invariante a la rotation, aux transformations croissantes de la luminance, et 
semblent assez peu sensibles au bruit et aux occupations. 

En ce qui concerne les approches definies dans le domaine spatial, nous conclurons 
sur les invariants difierentiels. Depuis les travaux de Hilbert, de nombreuses etudes ont 
ete realisees sur ces ensembles d'invariants a la rotation, jusqu'a ce que Schmid valide la 
methode en 1996, en les calculant jusqu'au troisieme ordre pour faire de I'indexation dans 
des bases d'images. L'approche s'est averee probante, les invariants pouvant etre assez 
facilement rendus invariants a certains changements de luminosite et s'averant plutot 
robustes aux changements de point de vue. II semble que cette methode iconique soit en 
voie de remplacer la classique correlation. EUe parait prometteuse pour I'appariement, 
I'indexation ou encore la reconnaissance d'images. 
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Une image etant apres tout un signal, il s'est avere necessaire pour etre complet de pas- 
ser en revue les methodes de description travaillant dans le domaine frequentiel. Les trans- 
formees de Fourier et de Mellin, outils classiques en traitement du signal, se revelent fort 
peu appropriees pour caracteriser des points de Timage, puisqu'elles n'admettent qu'une 
localisation en frequence. Des adaptations pour ameliorer leur localisation en espace ont 
bien ete tentees, citons la transformee de Gabor ou encore les ondelettes, mais celles-ci 
admettent trop d'inconvenients pour etre efficaces lors de la caracterisation de points. 

Plus generalement, les nombreuses approches que nous venons de passer en revue nous 
montrent que les niveaux de gris de Fimage possedent a eux seuls un contenu informatif 
sufEsamment riche pour caracteriser efficacement les points d'interet d'une image. La 
puissance toujours plus grande des ordinateurs disponibles sur le marche et Tengouement 
croissant pour les techniques du multimedia nous entrainent naturellement vers Tutilisation 
de donnees plus complexes comme les images en couleur. Qu'advient-il alors de toutes les 
methodes de caracterisation qui viennent d'etre presentees ? En existe-t-il de nouvelles, 
plus performantes et specifiques a Tinformation couleur ? Ou peut-on en rester aux simples 
niveaux de gris ? Nous allons explorer ces questions a la section suivante, consacree a la 
caracterisation en couleur. 



3.3 Caracterisation en couleur 

Le signal couleur pent etre decompose de diverses manieres en trois composantes 
[Luong, 1991]. II est alors naturellement possible de considerer une image en couleur comme 
la simple superposition d'images en niveau de gris, et par consequent d'exploiter pour cha- 
cune de ces composantes les approches en niveau de gris venant d'etre decrites. A partir 
des annees 90, on a vu neanmoins I'emergence de nouvelles methodes dediees a la couleur. 
Nous allons les passer en revue dans cette section. Nous verrons alors que I'information 
couleur ouvre de nouvelles possibilites. 

A ce jour, la plus grande partie des techniques de caracterisation specifiques a la 
couleur provient de I'indexation d'images. Ces techniques sont basees sur une approche 
globale de I'image. Les etudes realisees consistent a utiliser la couleur pour caracteriser 
I'image entiere le plus efiicacement possible, et ceci en tenant compte des principales 
transformations de I'image. Etant donne le contexte dans lequel sont realises ces travaux 
- I'indexation - une des preoccupations principales est I'obtention de I'invariance face aux 
changements d'illumination. On parle alors du probleme de la Constance des couleurs^ qui 
consiste a trouver une description couleur de la surface des objets qui soit independante de 
I'illumination. La Constance des couleurs est un theme recurrent des lors qu'une nouvelle 
caracterisation utilisant I'information couleur est mise en place. II necessite en premier lieu 
de disposer d'un modele d'illumination. C'est la raison pour laquelle nous presentons dans 
une premiere section les difi'erents modeles d'illumination susceptibles d'etre utilises dans 
la suite de cette etude. Les methodes de caracterisation globales sont ensuite detaillees a 
la section 3.3.2. II y est montre qu'elles fournissent des resultats interessants. Etant donne 
qu'elles sont globales, elles ne permettent cependant pas de caracteriser directement les 
points d'interet. II est done necessaire de les adapter a des techniques plus locales^ ce 
qui semble relativement delicat a realiser. En realite, nous avons rencontre tres peu de 
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techniques utilisant rinformation couleur pour caracteriser Timage localement. II en existe 
quelques unes que nous decrivons a la section 3.3.3, avant de presenter celle que nous avons 
mise en place. 

3.3.1 Les modeles d'illumination 

Une scene pent etre soumise a deux types de changement d'illumination : 

- Un changement d'intensite d'une ou plusieurs teintes de la source emettrice. On 
parle alors de changement interne de la source ; 

- Un deplacement de la source emettrice. On parle dans ce cas d'un changement ex- 
terne. 

Nous presentons dans les deux sections suivantes les differentes approximations ren- 
contrees qui permettent de modeliser ces deux types de changement d'illumination. Puis, 
avant de passer en revue les methodes de caracterisation de points d'interet integrant pour 
la plupart ces modeles, nous detaillons dans la section 3.3.1.3 quelques methodes de nor- 
malisation de rimage. Un pre-traitement de Timage est en effet une solution pour rendre 
celle-ci independante du modele d'illumination considere. 

3.3.1.1 Changement interne 

Des lors qu'ils se veulent realistes, les modeles d'illumination sont extremement com- 
plexes. Pour des raisons evidentes de simplification, on a I'habitude de considerer la forma- 
tion des images couleur dans les mondes de type Mondrian^. Dans ce contexte, la lumiere 
refiechie sur une surface depend des proprietes spectrales de la refiectance de la surface 
et de la lumiere incidente. Si Ton considere un systeme de vision, elle est capturee par 
un ensemble de n capteurs de la camera. Les surfaces etant supposees lambertiennes, la 
valeur pk{x) memorisee par chaque capteur a la position x est donnee par I'equation 3.21 : 

Pk{x) = / Sx{xobj)Ex{xobj)Rx,k d\ l<k<n (3.21) 

Jw 

oil A represente la longueur d'onde appartenant au spectre visible w^ ^(A,/c) 1^ reponse 
du k^'^^ capteur pour la longueur d'onde A, Ex{xobj) la lumiere incidente et Sx{xobj) la 
refiectance spectrale au point Xobj de la surface projete en x sur I'image. Ce modele decrit 
precisement la formation des images pour I'oeil humain et les cameras couleur. 

Les trois grandeurs R(^x,k)^ ^xi^obj) ^t Sx{xobj) venant d'etre definies peuvent etre 
decomposees sur des bases de dimension reduite selon des modeles lineaires, afin d'obtenir 
une dimensionalite faible. Etudions le cas de I'approximation de la refiectance spectrale : 

Approximation de la reflectance spectrale 



^Un Mondrian est un monde simplifie compose de surfaces planes lambertiennes soumises a une source 
d'illumination ponctuelle qui emet uniformement dans toutes les directions. 
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La reflectance spectrale de la surface peut etre approchee par un modele lineaire flni, 
dont la robustesse a ete prouvee [Maloney, 1986] et tel que : 

Sxix)^ Y, ai{x)si^X (3.22) 

l<i<'m 

ou les Si^x sont un ensemble de fonctions de base supposees const antes sur tout Tobjet, 
et les Oi{x) les m elements du vecteur a{x) — (o-i(j:), ...,0-77^(0:))-^ representant les poids 
de la fonction de reflectance et uniquement dependants du point. II decrit la distribution 
de la reflectance spectrale pour Tobjet. Notons p{x) — {pi{x)^...^pn{x))^ le vecteur des 
n mesures de capteurs. Etant donnee A une matrice n x n, il est possible d'ecrire pour 
771 = n : 

p{x) = Aa{x) (3.23) 

Remarquons que A ne depend que de Tillumination. En considerant cette approxi- 
mation, il est alors possible de modeliser les changements d'illumination selon le modele 
lineaire ci-dessous. 

Modele lineaire de changement d'illumination 

Soient deux illuminations caracterisees par les matrices respectives ^ et ^ non sin- 
gulieres. Les reponses des capteurs pour chaque type d'illumination sont alors liees par la 
transformation lineaire suivante : 

p{x) ^ Mp{x) avec M = AA'^ (3.24) 

Compte tenu des hypotheses faites, le modele d'illumination lineaire est, avec neuf 
parametres, le plus complet des modeles connus. On rencontre cependant d'autres ap- 
proximations plus simples. Citons rapidement le modele scalaire a un seul parametre, tres 
specialise [Brainard et al., 1989], pour lequel les plans couleur sont multiplies par le meme 
scalaire. Vient ensuite le modele diagonal a trois parametres, associe principalement a 
Finlayson et presente ci-dessous. 

Modele diagonal de changement d'illumination 

Le modele diagonal, etudie notamment par [Land, 1977; Forsyth, 1990; Finlayson, 
1995] est une version simpliflee du modele lineaire. II s'avere cependant suflisant lorsque les 
capteurs possedent une bande spectrale etroite, par exemple lorsqu'ils sont sensibles a une 
seule longueur d'onde. Sa pertinence depend done des reponses fournies par les capteurs. 
Cette idee a donne lieu a quelques travaux, mais c'est Finlayson dans [Finlayson et al., 
1994] qui I'a flnalisee. II propose d'utiliser certaines combinaisons lineaires des reponses, 
plus enclines a minimiser I'erreur d'approximation. Le modele diagonal devient done dans 
sa version generalisee : 

Tp{x) = DTp{x) (3.25) 

ou T represente la transformation d'afiinage ("sharpening" en anglais) des reponses 
donnees par les capteurs, D etant la matrice diagonale. Finlayson introduit egalement 
plusieurs methodes pour calculer T. 
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En resume, le modele lineaire est le plus complet des modeles d'illumination, sous 
rhypothese du monde Mondrian, c'est a dire sans tenir compte par exemple des inter- 
reflexions ou des reflets speculaires. Le modele diagonal, plus simple, semble toutefois 
suflisant dans sa version generalisee, bien qu'en realite aucune comparaison avec d'autres 
modeles n'ait ete realisee a ce jour. 

D'autres systemes plus complexes peuvent etre envisages. II est par exemple possible 
d'integrer aux modeles existants une translation des composantes de la couleur. Ainsi 
dans [Gros et al., 1997b], 11 modeles d'illumination internes sont evalues, incluant les 
modeles diagonal et lineaire. La principale preoccupation des auteurs est de determiner 
quel modele d'illumination possede le meilleur ratio qualite/complexite dans un contexte 
de caracterisation locale de points d'interet. II est montre que le calcul d'un modele lineaire 
n'est pertinent que pour de grandes images. Lorsqu'on ne s'interesse qu'a des sous-parties 
de I'image, les parametres non diagonaux ne s'averent pas signiflcatifs, ce qui rend les 
modeles diagonaux amplement suflisants. En ce qui concerne les parametres de translation, 
I'etude montre qu'ils sont signiflcatifs, meme pour des petites zones de I'image. lis le sont 
d'autant plus lorsque les deux images sont tres diflerentes. Ainsi ils apportent une nette 
amelioration en cas de reflets speculaires [Wolfl", 1994] par exemple, aspect jusqu'alors 
non traite avec les modeles classiques, du fait de Thypothese simpliflcatrice du monde 
Mondrian. Une des conclusions est que le modele diagonal de Finlayson ne se justifle que 
pour des images tres petites, ou tres peu difl'erentes. Le modele alors preconise est le 
modele diagonal enrichi d'un vecteur de translation tel que : 



p{x) = Dp{x) + T 



(3.26) 



II possede six degres de liberte pour un espace des couleurs a trois composantes. Si- 
gnalons tout de meme que le modele diagonal au sens de Finlayson est malgre tout le 
modele d'illumination que Ton va etre amene a retrouver pour la plupart des approches, 
qu'il s'agisse des methodes de caracterisation globales, locales ou encore des methodes de 
normalisation. 



3.3.1.2 Changement externe 

Dans le cas d'un deplacement de la source de lumiere, Finlayson suppose que chaque 
pixel est multiplie par un facteur. Ainsi un pixel {r^v^h) est transforme en {r\v\b') tel 
que : 

{r'y,b')^6{r,v,b) (3.27) 



Le facteur multiplicatif S depend de la position et de I'orientation de la source par 
rapport aux deux positions successives de cette source et a celles de la camera, et varie 
done de pixel en pixel. Si I'image contient n pixels, on obtient le modele d'illumination de 
I'equation 3.28 ci-apres : 



(3.28) 
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Le modele de transformation entre deux images est compose d'un coefficient multipli- 
catif pour chaque pixel de Timage. Cette solution constitue bien sur une approximation 
de la verite. 



3.3.1.3 Normalisation de Pimage 



Normaliser Fimage est une solution pour rendre celle-ci independante d'un modele 
d'illumination. C'est un pre-traitement qui s'avere essentiel si les descripteurs mis en place 
ensuite ne permettent pas eux-memes d'integrer le modele. 

Considerons toutes les images qui peuvent se deduire d'une image donnee / par un 
modele de transformation tel que ceux venant d'etre etudies. Les images ainsi derivees 
sont dites similaires les unes par rapport aux autres a travers le modele d'illumination 
considere. Cette notion de similarite definit une relation d'equivalence entre toutes ces 
images ainsi qu'une classe d'equivalence que nous appellerons C(/). Normaliser I'image / 
consiste done a caracteriser la classe C{I) par une image representative notee /. Cette image 
normalisee doit etre independante du modele de transformation, c'est a dire qu'elle doit 
pouvoir etre obtenue a partir de n'importe quelle image de C(/). Considerons deux images 
/i et I2 difierant d'un changement d'illumination et leurs classes d'equivalence respectives 
C(/i) et C(/2) caracterisees par /i et 12- Si les deux images /i et 1 2 sont identiques, 
cela signifie que les deux images non normalisees /i et I2 proviennent de la meme classe 
C{Ii)—C{l2)' EUes seront par consequent considerees comme similaires a travers le modele 
d'illumination. 

Le choix de la methode de normalisation est bien sur fonction du modele d'illumination 
considere. Ainsi, pour un changement interne de la source lumineuse modelise par le modele 
diagonal de Finlayson, chaque canal doit etre normalise independamment. Pour eliminer 
les trois parametres du modele, il est possible de diviser chaque niveau de gris de I'image 
par la moyenne des niveaux de gris du plan correspondant, ou encore de ramener a 1 la 
norme du vecteur constitue des niveaux de gris de chaque plan. En ce qui concerne les 
deplacements de la source, il faut en revanche considerer les trois plans simultanement. On 
pent par exemple multiplier la couleur de chaque pixel par un facteur de telle sorte qu'on 
obtienne r + v + h — 1. Dans ces conditions, le probleme majeur consiste a realiser une 
normalisation conjointe pour les deux modeles a la fois. Finlayson y apporte une solution 
en developpant une methode iterative presentee ci-apres : 

Methode iterative de Finlayson 

Finlayson a mis en place une methode iterative pour normaliser I'image face a des 
changements d'illumination internes et externes. Chaque iteration comporte deux etapes. 
Dans la premiere, I'image est normalisee pour le changement externe, et dans la deuxieme, 
le resultat de la premiere etape est normalise pour les changements internes. Le processus 
est assez rapide et converge en quelques iterations. Soient {r^^\v^\af^) un pixel de I'image 
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a Fetape p ei n\e nombre de pixels a traiter. La valeur du pixel a Fiteration p+1 est 
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Normaliser a Fiteration p les niveaux de gris de chaque plan par Fexpression r^^ + 
^i + ^i pei'met de s'affranchir des parametres Si du modele de changements internes de 
Fequation 3.28. Le resultat obtenu pour chaque pixel est ensuite divise par la moyenne des 
niveaux de gris ainsi calcules sur toute Fimage. Le processus iteratif permet de converger 
vers une solution independante des trois parametres du modele diagonal preconise par 
Finlayson. Une methode directe, demontree dans [Gros et al., 1997b], permet d'arriver au 
meme resultat, mais au prix de calculs assez complexes et plutot instables. 

Nous avons presente dans cette partie les approximations des divers changements d'illu- 
mination rencontrees en Vision par Ordinateur. Nous avons egalement vu comment ces 
modeles pouvaient etre integres dans un processus de normalisation de Fimage. Nous al- 
lons maintenant passer en revue les differentes methodes de caracterisation, globales puis 
locales. La plupart d'entre elles integrent plus ou moins bien ces modeles d'illumination. 



3.3.2 Les approches globales 

La majeure partie des descriptions couleur exist antes sont basees sur une approche 
globale de Fimage, qui est alors decrite au moyen d'un unique vecteur de caracteristiques. 
Les travaux realises jusqu'a present dans ce contexte voient Fimage comme une distribution 
aleatoire des couleurs et la decrivent done par des criteres stochastiques. Les histogrammes 
et les moments sont les criteres les plus frequemment utilises. Chacun d'eux fait Fobjet 
d'une des sections suivantes. Nous presentons egalement dans une troisieme section les 
quelques autres approches que nous avons rencontrees. Enfin toutes ces methodes sont 
discutees dans la derniere partie. 

3.3.2.1 Les histogrammes 

Les methodes d'indexation a partir de donnees couleur ont ete introduites par [Swain 
et Ballard, 1991]. II est possible de caracteriser une image en calculant Fhistogramme 
couleur qui lui est associe. La methode consiste a comptabiliser le nombre de fois qu'une 
couleur apparait dans Fimage. En pratique, le nombre de couleurs etant tres grand, il 
faut discretiser Fespace des couleurs en les regroupant en "paquets". Plus formellement, 
si Fespace couleur discret utilise est compose de n couleurs, alors Fhistogramme couleur 
Ti d'une image / contenant N pixels est un vecteur (/^d, /ic2 7 •••^^cn) ^^ chaque element 
hc^ represente le nombre de pixels de couleur Ci dans /. Les elements hc^ doivent respecter 
la contrainte ZlILi ^ci = ^- D'autres processus d'indexation portent sur les histogrammes 
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cumulatifs [Strieker et Orengo, 1995]. II faut ensuite mettre en place une mesure de simila- 
rite pour comparer les histogrammes construits. Les methodes de comparaison existantes 
sont decrites dans la section 5.1.3 du chapitre sur la mise en correspondance. 

Le principe est interessant car les histogrammes sont invariants a la translation et a la 
rotation image, varient tres pen au changement de point de vue et au changement d'echelle, 
sont egalement tres pen sensibles aux occupations et enfin n'imposent pas necessairement 
de travailler avec des images d'une scene rigide (comme par exemple un vetement dispose 
de differentes manieres sur plusieurs photos) [Swain et Ballard, 1991]. 

Clustering 

La principale difficulte rencontree lors de la construction des histogrammes couleur 
est bien sur la discretisation des couleurs. Le regroupement ("clustering" en anglais) des 
couleurs en "paquets" constitue une forme grossiere de regroupement des distributions 
de couleurs en un ensemble plus restreint. Une reduction trop importante du nombre de 
couleurs utilisees mene a des performances d'indexation tres instables [Zhang et al., 1995a]. 
Dans ce contexte, on rencontre differentes methodes de regroupement : certains auteurs 
utilisent une table de reference des couleurs [Mehtre et al., 1995]. EUe contient le meilleur 
ensemble de couleurs pour toutes les images de la base, les couleurs de chaque image etant 
ensuite reduites a cet espace. 

D'autres comme [Kankanhalli et al., 1996] preferent effectuer le regroupement indepen- 
damment pour chaque image, de telle sorte que chaque image est representee par sa propre 
table des couleurs. Le travail d'appariement de deux images necessite alors en premier lieu 
de mettre en correspondance les tables de couleurs associees a chaque image. 

D'autres encore, comme [Drew et al., 1998], transforment au prealable Timage en coor- 
donnees chromatiques {r,v}^ pour ramener Tespace 3D des couleurs a une description 2D 
et ainsi reduire la taille de Thistogramme, qui pent meme etre alors compresse efficacement 
[Liet al., 1999]. 

Sensibilite aux changements d'illumination 

Depuis Swain, des travaux ont ete realises pour pallier a certains inconvenients des 
histogrammes couleur, comme par exemple leur sensibilite aux changements de lumino- 
site. Dans [Funt et Finlayson, 1995], Funt et Finlayson y apportent une solution ap- 
pelee methode CCCI pour "Color Constant Color Indexing", sous Thypothese du modele 
d'illumination diagonal. lis calculent des histogrammes de rapports de couleur : Tindexa- 
tion n'est plus realisee sur la couleur elle-meme mais sur les derivees du logarithme des 
couleurs, qui traduit en fait un rapport de couleurs uniquement fonction des albedos et 
done independant de Tillumination. Les auteurs notent que ceci revient a effectuer de 
maniere grossiere une detection de contour sur le logarithme de Timage. La methode 
s'avere meilleure que celle de Swain sur des images ayant subi un changement d'illumina- 
tion, mais cependant moins bonne lorsque I'eclairage reste constant. En outre, les rapports 
de couleur utilises sont tres sensibles au bruit pour les intensites faibles. 



'^Coordonnees chromatiques : r — „ . ^ . „ , v — „ . ^ . „ et h 
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Comment tenir compte de Pinformation spatiale ? 

Plus generalement, une critique attribuee aux histogrammes est la perte de la distribu- 
tion spatiale des niveaux de gris. Mieux vaut leur associer d'autres methodes d'indexation 
de plus haut niveau, comme Tindexation de formes par exemple. lis semblent neanmoins 
etre une bonne approche comme premier filtre (simple et rapide) dans la base, avant d'en- 
visager des methodes plus couteuses. Quelques travaux ont tout de meme ete realises pour 
pallier ce probleme, citons notamment [Zhang et al., 1995a; Smith et Chang, 1996; Pass 
et Zabih, 1996]. lis ont tous en commun le decoupage de Timage en regions pour lesquelles 
un histogramme couleur est calcule. 

Un autre type d'approche plus recent consiste a enrichir Thistogramme d'une certaine 
information structurelle. Cette approche a ete choisie dans [Huang et al., 1999] ou la notion 
de correlogramme couleur est mise en place. Les auteurs definissent un correlogramme 
comme etant un histogramme etendu, qui exprime la fagon dont la correlation spatiale des 
couleurs evolue avec la distance. Sa formulation est donnee a Tequation 3.30 : 

tS . (/) = ^ Pr \p2el I I(p2) = Cj et |pi - P2 1 = fc] (3.30) 

Pour chaque pixel de I'image de couleur c^, le correlogramme donne la probabilite que 
le pixel situe a la distance k du pixel considere soit de couleur Cj. L'efficacite de cette 
structure depend fortement du choix de la distance, qui doit etre suffisamment grande 
pour que la caracterisation soit pertinente, mais cependant raisonnable pour garder des 
temps de calcul et des couts de stockage exploitables. Les auteurs developpent a ce propos 
une methode rendant le calcul du correlogramme plus efficace. 

Une autre methode developpee par Siggelkow et Schael dans [Siggelkow et Schael, 
1999] rend egalement Fhistogramme couleur plus discriminant en y introduisant une in- 
formation de voisinage. L'approche est basee sur la methode de calcul des invariants par 
generalisation et contrainte de [Schulz-Mirbach, 1994]. Mirbach avait propose de calculer 
la moyenne des valeurs de niveau de gris d'une image sur une orbite associee au groupe 
des transformations euclidiennes de I'image. Pour une translation (to,ti) et une rotation 
d'angle (/:?, il formule la solution sous forme d'integrale, calculee sur toute I'image I^mxN) 
et de la forme : 

1 rN pM r27T 

^f^^^^^nm / / fi9im<pdtidto (3.31) 

ZtvIMM Jto^o Jti^O Jip^O 

ou / represente une fonction locale qui depend uniquement des niveaux de gris de 
I et g une transformation euclidienne de I'image fonction des parametres (to,ti) et cp. 
L 'information de voisinage que Ton souhaite voir apparaitre dans I'invariant depend du 
choix de /. Par exemple, prendre /(/) = /(0,0) revient simplement a calculer la moyenne 
des niveaux de gris de I'image, alors que /(/) = 7(0,0). 7(1,0) permet en plus de faire 
entrer dans la moyenne les niveaux de gris des voisins du point (to, h) situes sur un cercle 
de rayon 1 autour du point. L'invariant obtenu est represente ci-apres a I'equation 3.32. 

2 pN pM p27V 

^/W = o Ain^ / / ^(^0,^1) / I{cosip + to,smip + ti)dipdtidto (3.32) 

ZtvIMVI Jto^oJti^o J(f^o 

Dans le cas discret, to et ti sont des entiers et Tangle (p est choisi selon un pas de 
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discretisation, les niveaux de gris des points inter-pixels ainsi calcules etant estimes par 
interpolation bi-lineaire. 

Cette approche permet de tenir compte d'une certaine information locale, mais le 
choix de caracteriser Timage par une moyenne ne permet pas de traiter le probleme des 
occupations ou des changements d'arriere-plan par exemple. C'est pourquoi Siggelkow 
et Schael proposent de remplacer cette simple moyenne par un histogramme couleur au 
sens de Swain, afin de mieux preserver Tinformation structurelle locale. Get histogramme 
est calcule sur toutes les valeurs f{g{I)) de Fequation 3.31. Si /(/) = ^(0,0), alors il 
correspond a Thistogramme couleur de Swain. Pour comprendre les avantages de cette 
variante, considerons les textures de la figure 3.2, qui sont composees de 2 couleurs : blanc 
{B) et gris (G). 



c 



T2 



T' 



Figure 3.2 - Textures binaires caracterisees par le meme histogramme couleur % 
(5b,4g). 



Ces trois textures possedent le meme histogramme couleur % et ne sont done pas ca- 
racterisables avec la methode classique de Swain. En revanche, si Ton considere la methode 
de Siggelkow et Schael avec /(/) = 7(0,0). 7(1,0) (voir Tequation 3.32), alors on obtient 
le meme histogramme pour T2 et T2 et un histogramme difierent pour Ti. Par exemple, 
si le pas de discretisation de Tangle ^ a ete choisi de fagon a ne considerer que les voisins 
directs de chaque pixel en connexite-8, alors on obtient : 



^*(Ti) = (0gg,16bb,24bg) 

W(T2)^W(T^) = (12gg,10bb,18bg) 



(3.33) 



La methode permet ainsi de conserver les caracteristiques locales des points, tout en 
etant invariante a la translation et a la rotation. EUe pent encore etre affinee en combinant 
plusieurs histogrammes calcules pour difierents noyaux /. Remarquons enfin que cette 
approche s'avere plus lourde a mettre en oeuvre que les histogrammes couleur classiques. 
Une methode est egalement developpee dans [Siggelkow et Schael, 1999] pour en reduire 
la complexite. 

II faut tout de meme bien avoir a I'esprit que I'indexation a partir des histogrammes en 
general est tres couteuse en temps de calcul, les histogrammes devant avoir une certaine 
taille pour etre suffisamment discriminants et les bases d'images devenant de plus en 
plus volumineuses. Get inconvenient est une des raisons pour lesquelles certains auteurs 
ont oriente leurs travaux vers des criteres stochastiques moins "gourmands", comme les 
moments. Cette autre approche fait Tobjet de la prochaine section. 
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3.3.2.2 Les moments 

Si Ton considere la distribution des couleurs d'une image en terme de melange proba- 
biliste, alors il vient naturellement a Tidee, apres les histogrammes, d'utiliser les moments 
statistiques pour indexer des images. C'est en premier lieu un bon moyen d'echapper a la 
discretisation de Tespace des couleurs, propre aux histogrammes. 

Dans la section precedente, nous avons presente les travaux de Strieker et Orengo [Stri- 
eker et Orengo, 1995] a propos des histogrammes couleur. Ceux-ci proposent egalement 
une methode de caracterisation basee sur les moments de la distribution couleur. lis uti- 
lisent jusqu'au troisieme ordre les moments centres de chaque plan couleur, ceux-ci etant 
decrits dans Tespace TSI. Le premier moment correspond a la moyenne, le second a la 
variance et le troisieme a la distorsion des niveaux de gris. lis montrent alors que la 
combinaison ponderee de ces mesures, associee a une fonction de similarite, donnent de 
meilleurs resultats d'indexation qu'avec les histogrammes cumules, tout en etant plus effi- 
cace, puisque les index ne contiennent que les elements essentiels de la distribution couleur. 

Healey et Slater dans [Healey et Slater, 1994] caracterisent eux aussi Timage a partir 
de moments issus de la distribution des couleurs. lis approchent la reflectance spectrale de 
la surface par un modele lineaire flni (cf. la section 3.3.1.1), et en deduisent que les histo- 
grammes couleur d'un meme objet expose a deux sources lumineuses diflerentes sont relies 
par une transformation afline de leurs coordonnees. L'espace ainsi deflni est alors decrit 
par les valeurs propres de la matrice des moments centres calcules sur ces histogrammes 
et que Ton doit a [Taubin et Cooper, 1992]. La caracterisation obtenue est invariante aux 
transformations lineaires des coordonnees et aux changements d'illumination modelises par 
un modele lineaire (cf. la section 3.3.1.1). Elle apparait plus robuste que la methode CCCI 
basee sur les histogrammes (decrite a la section precedente), surtout face aux niveaux 
de gris de faible intensite. Elle rend aussi le processus d'indexation plus efiicace puisque 
seulement six valeurs de moments doivent etre passees en revue pour chaque image. On 
lui reprochera quand meme d'etre plus "globale" que les methodes a base d'histogrammes, 
et done de moins bien se comporter en presence de faibles occultations par exemple. 

Une methode de reconnaissance de texture couleur est egalement developpee dans 
[Wang et Healey, 1998] a partir des moments de Zernike [Teague, 1980]. La methode 
de caracterisation obtenue est invariante a la rotation, au changement d'echelle et aux 
variations d'illumination. 

Dans [Mindru et al., 1999], Mindru, Moons et Van Gool deflnissent la notion de mo- 
ments couleur generalises. Etant donnes une image / telle que I{x^ y) — {R{x^ y), V{x^ y)^B{x^ y)) 
represente le vecteur des niveaux de gris du pixel (j:, y) de / et fi une region appartenant 
a /, le moment couleur generalise de Vt d'ordre p + q ei de degre a + 6 + c est tel que : 

M;,*^ = j j x^y'iR^x, y)V\x, y)B%x, y)dxdy (3.34) 

Remarquons par exemple que les moments couleur generalises M^^^ correspondent aux 
moments d'ordre ;? + g de la region Q, et que les moments M^^^ representent les moments 
non centres d'ordre a + 6 + c de la distribution couleur des valeurs RVB de Q.. 

En considerant des combinaisons des moments ainsi deflnis, jusqu'au premier ordre et 
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au deuxieme degre seulement, Mindru, Moons et Van Gool ont mis en place des invariants 
aux transformations affines de Timage et aux changements d'illumination selon le modele 
diagonal avec translation. Ces invariants sont repartis en trois classes, selon le nombre de 
plans couleur impliques. On obtient par exemple pour chacun des plans couleur les deux 
invariants suivants : 

o _ Mf, Mg, M^ + Ml^ Ml, Mg, + M% M^, M^, - Mf M^, Mg^ - M^^ Mg, M^, - M% M^, M^ 
^^ ^^0 ^00 Ko 

(3.35) 

ou M'^q represente M^^^, ^pl^ ou ^pq selon le plan considere. Les invariants impli- 
quant deux plans couleur a la fois sont au nombre de 10 et il en existe 21 pour les trois 
plans [Mindru et al., 1999]. 

Les auteurs comparent ensuite leur approche avec celle de Reiss [Reiss, 1993] qui utilise 
des moments invariants aux memes transformations de Timage mais calcules jusqu'au 
quatrieme ordre. lis montrent que I'approche couleur permet d'ameliorer nettement le 
processus de reconnaissance et que les invariants sont plus robustes aux occupations, ce 
qui faisait jusqu'alors defaut aux caracterisations basees sur les moments classiques par 
rapport a celles basees sur les histogrammes. 

Comme toutes les descriptions basees sur la distribution des couleurs, les methodes uti- 
lisant les moments ont le principal inconvenient de ne pas tenir compte de I'information 
structurelle contenue dans la zone de Timage etudiee. De meme que pour les histogrammes, 
elles peuvent neanmoins servir de premier filtre pour reduire le nombre d'appariements 
potentiels durant le processus d'appariement. Citons tout de meme les travaux recents de 
Healey et Slater [Healey et Slater, 1997] qui ameliorent leur methode de caracterisation 
[Healey et Slater, 1994] en introduisant des filtres spatiaux dans le processus d'indexation. 
Les six invariants sont calcules sur Timage de reference, mais aussi sur Timage obtenue 
par exemple par difference de filtres gaussiens. L'ensemble des 6n invariants devient plus 
discriminant et permet ainsi de difierencier plusieurs textures possedant la meme dis- 
tribution de couleurs, I'information capturee par chacun des sextuples d'invariants etant 
difierente. Le choix des filtres a employer depend des applications envisagees. Pour obtenir 
rinvariance a la rotation, il convient d'utiliser un filtre qui soit invariant a la rotation, la 
magnitude du gradient de Timage pent etre utilisee par exemple. 

D'autres methodes de description basees sur les moments ont ete developpees encore 
plus recemment, comme par exemple dans [Thai et Healey, 1998] ou la description est faite 
a partir de moments complexes calcules sur des images couleur traitees au prealable par 
des filtres de Gabor. Nous ne detaillerons pas ces approches ici car elles s'appliquent a des 
cas particuliers d'images, des textures periodiques plus precisement, et ne peuvent done 
guere etre exploitees pour Tappariement de points d'interet extraits d'images quelconques. 

3.3.2.3 Autres approches 

Nous presentons dans cette section trois autres approches permettant de caracteriser 
une image en couleur. Contrairement aux histogrammes et aux moments qui viennent 
d'etre passes en revue, ces methodes ne font pas ici I'objet d'une section a part entiere. 
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car ce sont des techniques moins classiques dans le domaine de Tindexation ou de la recon- 
naissance. EUes nous ont cependant semble suffisamment pertinentes pour etre referencees 
dans cette etude. 

La premiere approche applique a la couleur la classique mesure de correlation^ : Kon- 
depudy et Healey proposent dans [Kondepudy et Healey, 1994] de caracteriser une texture 
couleur 3D par six mesures de correlation : les trois fonctions d'autocorrelation Crr^ Cyv 
et Cbb ainsi que les correlations croisees Crvi Crb et Cvb entre les trois plans cou- 
leur. Cela suppose bien sur que les bandes couleur ne varient pas les unes par rapport 
aux autres. La caracterisation obtenue est invariante aux transformations euclidiennes de 
rimage et pent facilement etre rendue invariantes aux changements affines de luminosite. 

Dans [Finlayson et al., 1996], Finlayson, Chatterjee et Funt proposent quant a eux 
une methode basee sur des mesures d'angles. Cela donne une caracterisation invariante 
aux transformations euclidiennes de Timage et aux changements d'illumination selon le 
modele diagonal generalise de Finlayson (defini a Tequation 3.25). lis indexent les objets 
par les angles de la distribution couleur, c'est a dire les angles formes par chacun des plans 
couleur representes sous forme de vecteurs et pris deux a deux. En effet, seules les normes 
de ces vecteurs varient avec Tillumination, leur direction restant constante. lis ajoutent 
egalement a cette caracterisation les angles de couleurs entre les distributions couleur 
des contours. La methode est comparee a Fapproche CCCI utilisant les histogrammes et 
decrite a la section 3.3.2.1 ainsi qu'a celle de Healey et Slater fondee sur les moments et 
presentee a la section 3.3.2.2. Les resultats obtenus semblent privilegier I'approche basee 
sur les angles, la methode de Healey et Slater etant la moins satisfaisante. Les auteurs 
attribuent ce resultat au fait que les moments extraient une information beaucoup plus 
globale que les histogrammes ou les angles. 

Comme nous Tavons vu au long de ce chapitre, de nombreuses approches modelisent la 
distribution des couleurs en terme de melange probabiliste, la plupart du temps sous forme 
d'histogrammes et de moments. Une autre alternative basee sur le meme principe a ete 
developpee tres recemment dans [Biernacki et Mohr, 1999], ou la distribution est envisagee 
sous forme de melange gaussien des couleurs resistant aux changements de luminosite. La 
qualite des appariements obtenue est du meme ordre qu'avec les histogrammes. Mais le 
principal avantage de la methode est qu'elle permet un gain important dans la taille de 
rindex. En effet, le nombre de classes partitionnant Tespace des couleurs est determine 
automatiquement pour chaque image, contrairement aux methodes basees sur les histo- 
grammes oil il est impose a priori. L' inconvenient majeur reside dans le temps d'indexation 
qui est plutot long. 



3.3.2.4 Discussion 

Toutes les techniques que nous venons de decrire considerent Timage globalement. La 
majeure partie d'entre elles se proclament invariantes a la translation, a la rotation et au 
changement d'illumination. Bien que Ton puisse trouver des tests experimentaux montrant 
les bons resultats de chacune de ces methodes par rapport aux autres, on ne trouve pas 
de resultats synthetiques les comparant toutes sur un jeu unique de donnees. II est done 



^Consulter la table 5.1 pour une revue des principales mesures de correlation existantes. 
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difficile de tirer des conclusions quant a leur pertinence. En depit de cela, quelques points 
importants ressortent : 

Les descriptions basees sur les moments permettent de s'afi'ranchir de la discretisation 
de Tespace des couleurs. EUes permettent egalement une representation dans un espace 
de moindre dimension, contrairement aux histogrammes qui necessitent Temploi de tech- 
niques d'appariement de forte complexite, comme nous le verrons au prochain chapitre. 
En revanche, les approches basees sur les histogrammes ou les angles semblent moins 
sensibles aux occupations que celles utilisant les moments, bien que des efi'orts aient ete 
realises recemment pour pallier ce probleme [Mindru et al., 1999]. 

Plus generalement, le principal avantage des descriptions globales est qu'elles incluent 
la notion d'invariance aux changements d'illumination. En revanche, un point faible pour 
la plupart est de ne pas assez tenir compte de la distribution spatiale de Tinformation 
couleur. EUes peuvent neanmoins s'averer etre une bonne approche comme premier filtre 
dans la base d'images, avant d'envisager des methodes mettant en jeu des descriptions 
plus locales ou des primitives de plus haut niveau. 

La question que nous nous posons alors dans le contexte de notre etude est la sui- 
vante : peut-on utiliser les methodes globales pour caracteriser les points d'interet ? Cela 
revient a les adapter de maniere a les rendre locales. Cela semble difficile, puisque toutes 
les methodes reposent sur la comparaison de distributions de couleurs et sont done basees 
sur des mesures statistiques. Or lorsqu'elles sont envisagees localement, ces distributions 
ne contiennent qu'un faible nombre de pixels. II n'est pas assure que les methodes globales 
puissent fonctionner correctement avec de si petites populations. D'autre part, les tech- 
niques developpees sont la plupart du temps peu robustes aux occupations importantes. 
Ceci constitue un inconvenient non negligeable dans le cas de la caracterisation de points 
d'interet ou le fond pent compter pour une part importante dans la distribution. En tout 
cas, il serait au moins utile de mener une etude sur la dimension minimale que doit avoir 
la distribution locale pour que ces methodes restent efficaces. 

Une autre solution consiste a mettre en place des techniques de caracterisation specifi- 
ques a des populations couleur locales. Jusqu'a present, tres peu de travaux ont suivi cette 
voie. Les quelques methodes rencontrees sont passees en revue dans la prochaine section. 

3.3.3 Les approches locales 

Tres peu de travaux ont ete realises sur la caracterisation locale de points d'interet a 
partir de I'information couleur. Nous avons seulement trouve quelques implementations lo- 
cales des histogrammes couleur. Ainsi dans [Ennesser et Medioni, 1995], des histogrammes 
locaux sont construits sur plusieurs zones de I'image de tallies variables puis intersectes 
avec I'histogramme de I'objet recherche. Les auteurs montrent que cette approche donne 
de meilleurs resultats qu'avec la methode classique d'indexation de Swain et Ballard. II 
existe aussi I'approche de Zhang [Zhang et al., 1995a] qui segmente I'image en regions et 
calcule pour chacune d'elles un histogramme. 

Cependant ces deux approches ne sont guere satisfaisantes puisque, une fois encore, 
elles utilisent des methodes statistiques qui demeurent suspectes pour des petites popula- 
tions. Restent alors deux directions qui nous semblent interessantes. La premiere exploite le 
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paradigme du hachage geometrique dans le cadre de Tinvariance aux changements d'illumi- 
nation ; elle est detaillee dans la prochaine section. En ce qui concerne la seconde direction, 
nous proposons une approche qui etend a la couleur la technique basee sur les invariants 
differentiels de Hilbert, presentee a la section 3.2.1.3. Cette etude est Fobjet du chapitre 
4. 



3.3.3.1 Hachage des couleurs 

Schwartz, Wolfson et Lamdan ont developpe une technique d'indexation utilisant le 
paradigme du hachage geometrique de Wolfson^. Cette technique s'applique sur des en- 
sembles de points, sous differentes transformations geometriques. L'idee maitresse consiste 
a stocker dans la table des informations geometriques independantes de la position, de 
I'orientation et de I'echelle des objets. 

Si Ton se place dans le contexte de Finvariance aux changements d'illumination, il 
est alors possible d'etendre le principe du hachage a la couleur. En effet, considerons 
le modele diagonal comme modele d'illumination. Ce modele traduit que le rapport des 
couleurs en deux points est invariant aux changements d'illumination. Etant donne un 
point de reference, les couleurs de tous les autres points peuvent etre definies en terme de 
coordonnees de couleur par rapport a la couleur de ce point de reference. Les valeurs du 
rapport des couleurs peuvent done etre calculees pour tout point j, des qu'un point de 
base i a ete fixe. Une table de hachage pent alors etre construite en prenant pour index 
ces valeurs. Chaque entree de la table pointe sur toutes les paires de points qui ont les 
rapports de couleur indexes. II est done parfaitement possible de caracteriser un point 
d'interet et son voisinage local par une table de hachage des couleurs. II sufiira ensuite, 
lors de I'appariement, de calculer les rapports de couleur du voisinage associe au point que 
I'on veut apparier, puis de passer en revue la table et d'ajouter un vote des qu'un rapport 
de couleurs similaire est rencontre. Le correspondant potentiel du point sera alors celui 
dont le voisinage possede le plus grand nombre de votes. 

L'approche est interessante sur plusieurs points : 

- Elle n'utilise aucun outil statistique, done est bien adaptee aux petites populations ; 

- Elle est invariante aux changements d'illumination dans la mesure oil le modele 
diagonal est valide ; 

- Elle est particulierement robuste au bruit et aux occupations, de part la grande 
quantite de votes impliques ; 

- L'algorithme est facilement parallelisable [Wolfson et Rigoutsos, 1997] ; 

- Elle n'est basee sur aucune information geometrique, done doit etre robuste aux 
translations et aux rotations. 

Son inconvenient majeur reside dans le cout important qu'impose la construction de 
la table; il est en efi'et necessaire de considerer tous les couples de points du voisinage 
des points d'interet consideres. Elle semble done difficilement exploitable pour mettre en 
correspondance un grand nombre de points entre images. 



^Consulter [Wolfson et Rigoutsos, 1997] pour un etat de I'art. 
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3.4 Conclusion 

Ce chapitre a presente un etat de Tart des methodes de caracterisation locale de points 
d'interet, en noir et blanc comme en couleur. La plus grande partie des approches ren- 
contrees sont dediees aux images monochromes et travaillent tant dans le domaine spatial 
que frequentiel. De notre etude ressort Fapproche basee sur les invariants differentiels de 
Hilbert. Cette methode de caracterisation en niveau de gris est invariante aux transforma- 
tions euclidiennes de Timage, robuste au changement d'echelle si elle est envisagee dans un 
contexte multi-echelle, pent etre rendue invariante a certaines transformations des niveaux 
de gris et enfin se comporte relativement bien dans le cas de changement de point de vue. 
Elle a ete validee recemment par Schmid pour Tappariement de points entre images, avec 
rindexation d'images comme objectif. 

Plusieurs methodes dediees a la couleur ont egalement ete passees en revue. EUes 
sont malheureusement pour la plupart peu adaptees a la caracterisation locale de points, 
car essentiellement developpees pour decrire Timage dans son integralite, Tapplication 
visee le plus souvent etant Tindexation d'images. Dans ce contexte, Fessentiel des travaux 
menes sur la couleur depuis ces dix dernieres annees a ete concentre sur la Constance des 
couleurs, c'est-a-dire la capacite a rendre la caracterisation invariante aux changements 
d'illumination. Les methodes d'ailleurs developpees sont pour la plupart pertinentes. Cer- 
taines d'entre elles sont meme invariantes aux transformations euclidiennes de Timage. 
Malheureusement, elles semblent inadaptees a des approches plus "locales" comme la ca- 
racterisation de points d'interet. En effet, la plupart d'entre elles considere I'image comme 
une distribution aleatoire des couleurs et par consequent la caracterise a I'aide d'outils 
statistiques, les histogrammes couleur par exemple. II s'avererait done risque de les em- 
ployer pour des approches locales ou la taille de la distribution aurait toutes les chances 
d'etre trop faible. 

N'ayant trouve dans la litterature aucune methode de caracterisation locale dediee 
a la couleur reellement concluante, nous avons choisi d'orienter nos travaux dans cette 
voie. Utiliser sur chaque canal couleur les methodes developpees en niveau de gris est la 
premiere idee qui vient a I'esprit. Dans ce contexte, le choix de la caracterisation basee sur 
les invariants differentiels de Hilbert nous semble judicieux, d'une part parce que celle-ci a 
fait ses preuves en noir et blanc, mais surtout parce qu'elle offre la possibilite d'exploiter 
I'information inter-canal, alors que les autres approches se contentent de multiplier la 
caracterisation par le nombre de plans. Cette etude fait I'objet du prochain chapitre. Nous 
montrons comment il est possible de mettre en evidence des informations specifiques a la 
couleur, en plus bien sur des invariants existants pour chaque plan couleur. 
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Chapitre 4 



Les invariants difFerentiels couleur 



Les methodes de caracterisation qui viennent d^etre presentees ne s^averent pas con- 
cluantes pour la caracterisation de points dHnteret. Nous presentons done dans ce cha- 
pitre une nouvelle approche de caracterisation locale^ qui exploite Vinformation couleur. 
La methode est basee sur les invariants differentiels de Hilbert. Elle permet de mettre en 
place une caracterisation invariante a la rotation image. Nous montrons que Vinformation 
couleur permet de simplifier considerablement la mise en place de cette caracterisation ^ 
tout en la rendant plus robuste au bruit. Une technique issue du probleme de la Constance 
des couleurs est egalement presentee pour rendre cette approche invariante aux change- 
ments dHllumination. 
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Chapitre 4- Les invariants differentiels couleur 



Dans ce chapitre, nous etendons a la couleur les invariants differentiels de Hilbert 
jusqu'alors utilises en niveau de gris. Cette technique a ete presentee a la sec- 
tion 3.2.1.3 du chapitre precedent. EUe permet de caracteriser localement le point 
d'interet en exploitant rinformation contenue dans les niveaux de gris de son voisinage et 
est invariante aux transformations orthogonales de Fimage. 

Les invariants ainsi definis sont bien sur appliques a chaque plan couleur. Nous mon- 
trons a la section 4.1 qu'il existe egalement deux invariants inter-canaux specifiques a 
la couleur. Ces invariants supplementaires permettent alors de mettre en place une ca- 
racterisation couleur robuste, qui est presentee a la section 4.2. Contrairement aux methodes 
globales, les methodes locales tiennent d'avantage compte de la distribution spatiale mais 
ont rinconvenient de ne pas etre invariantes aux changements d'illumination. II faut done 
mettre en oeuvre une technique pour remedier a ce probleme. Ceci fait Tobjet de la sec- 
tion 4.3, dans laquelle plusieurs types de changements d'illumination sont passes en revue 
et plusieurs methodes de normalisation sont proposees. La mise en place des invariants 
differentiels couleur ainsi que Tetude des changements d'illumination ont fait I'objet de 
trois publications [Montesinos et al., 1998; Gouet et al., 1998b; Montesinos et al., 2000]. 



4.1 Deux invariants specifiques a la couleur 

Considerons une image couleur {R,V,B} ainsi que le groupe des rotations specifie par 
un parametre (I'angle de la rotation). II y a par plan couleur 5 derivees jusqu'au deuxieme 
ordre, sans compter I'intensite lumineuse. Les invariants sont done dans ce cas au nombre 
de (5 + 1) X 3 — 1 = 17. Nous avons comptabilise 5 invariants differentiels en niveau de gris, 
soit 5 X 3 = 15 invariants pour la couleur. Le tableau 4.1 resume la dimension du vecteur 
invariant et le nombre de degres de liberte associes en fonction des trois premiers ordres. 





Ordre 1 


Ordre 2 


Ordre 3 


Derivees 


2 

(y^y) 


3 

(xx xy yy) 


4 

(xxx xxy xyy yyy) 


Degres de liberte 
(ndg + derivees) 


3 

(ndg + 2 derivees) 


6 

(-h 3 derivees) 


10 

(-h 4 derivees) 


Invariants N&B 
(les d.d.l. - 1) 


2 

(3 d.d.l. - 1) 


5 

(6 d.d.l. - 1) 


9 

(10 d.d.l. - 1) 


Invariants couleur 


2 


- 


- 


Invariants N&B + couleur 
(les d.d.l. par plan - 1) 


2x3+2=8 

(3x3-1) 


5x3+2=17 
(6x3-1) 


9x3+2=29 

(10x3-1) 



Table 4.1 - Cardinalite de Vensemhle des invariants differentiels a la rotation, 



II existe done deux invariants supplementaires inter-canaux, a prendre dans I'ensemble 
suivant [Montesinos et al., 1998] : 



VR.VV VR.VB VV.VB 



(4.1) 



Remarquons qu'ils n'impliquent que les derivees du premier ordre. 



4-2. Une caracterisation couleur robuste 
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4.2 Une caracterisation couleur robuste 

Notre solution consiste a n'utiliser que les invariants de Hilbert a I'ordre 1. La ca- 
racterisation qui serait alors obtenue pour des images en niveau de gris serait inutilisable, 
puisque reduite a deux invariants. Par contre, I'approche couleur permet d'obtenir un 
ensemble de 2x3 + 2 = 8 invariants, que nous appelons Vcoi et tel que : 



Vcol{x,a) 



R 

WVRf 
V 

\\vvf 

B 

||VB||2 

VR.VV 
\ VR.VB J 



(4.2) 



La simplification que nous permet Finformation couleur presente deux avantages cer- 
tains : 

- La caracterisation obtenue est robuste au bruit, puisqu'elle n'implique que les derivees 
de rimage d'ordre 1, 

- La complexite de la methode est faible, puisque seulement quatorze images sont 
necessaires au calcul (i?, Rx^ Ry^ \ Vi? |, y, V^, Vy^ \ VR |, B, B^, By^ \ VR |, 
Vi?.VF, VR.VB). L'utilisation des ordres superieurs rendrait la methode diffici- 
lement exploitable en terme d'occupation memoire/disque, surtout si un filtrage 
sub-pixel est envisage (cf. annexe C). 

II serait necessaire d'aller jusqu'a I'ordre 3 en niveau de gris [Koenderink et Van Doom, 
1987; Salden et al., 1992; Schmid, 1996] pour obtenir un vecteur d'invariants de dimension 
similaire (avec neuf invariants). L'invariant "perdu" est compense par la robustesse de la 
methode. La figure 4.1 montre les vecteurs d'invariants de I'equation 4.2 calcules sur deux 
images difierant d'une rotation image de 35° et obtenus pour le point central de I'image qui 
est aussi le centre de la rotation. EUe montre clairement I'invariance de la caracterisation 
a la rotation. 



4.3 Changement d'illumination 



La methode de caracterisation mise en place ici tient compte de la distribution spatiale 
de Finformation couleur mais n'est en revanche pas invariante aux changements d'illumi- 
nation. Nous presentons dans les deux sections suivantes les methodes mises en place pour 
pallier ces inconvenients, qu'il s'agisse de changements internes ou externes. La pertinence 
des approches presentees est demontree sur plusieurs series d'images en couleur difierant 
de ces changements d'illumination. 



104 



Chapitre 4- Les invariants differentiels couleur 





Les 8 invariants couleur Les 8 invariants couleur 

soumis a une rotation de 35° 

Figure 4.1 - Les deux vecteurs dHnvariants couleurs obtenus pour le centre de la rotation. 



4.3.1 Changement interne 



Le modele d'illumination choisi pour les changements interne est le modele diagonal 
enrichi d'une translation, qui a ete presente a Tequation 3.26. II a ete en effet juge comme 
possedant le meilleur rapport qualite/complexite lorsque les images sont petites [Gros 
et al., 1997b], ce qui est notre cas puisque la caracterisation est locale. 

A partir du modele etabli, deux directions sont envisageables pour rendre la ca- 
racterisation invariante. La premiere solution consiste a modifier le vecteur Vrot pour le 
rendre invariant a ce type de transformation, tel que Ta fait Schmid dans [Schmid, 1996] 
pour les invariants difierentiels en niveau de gris. Le modele d'illumination ayant six degres 
de liberte, le vecteur tel que nous Tavons defini serait reduit a 8 — 6 = 2 invariants (les 
angles inter-plans). Cette solution ne convient evidemment pas, un vecteur a deux com- 
posantes etant bien sur trop pauvre. II faudrait alors au moins considerer les invariants 
jusqu'a Tordre 2. On obtiendrait dans ce cas 17 — 6 = 11 invariants aux changements 
d'illumination (se reporter au tableau 4.1 pour le decompte des degres de liberte). Cette 
solution n'apparait pas non plus comme la plus optimale. En efi"et, I'utilisation des derivees 
jusqu'au deuxieme ordre afi"aiblit la caracterisation face au bruit, d'autant plus que la nor- 
malisation des invariants face aux changements d'illumination conduirait a calculer des 
rapports de derivees (cf. section 3.2.1.4 du chapitre 3), rendant la caracterisation encore 
plus sensible au bruit. 

La seconde direction consiste en une normalisation de I'image, tel que cela a ete presente 
a la section 3.3.1.3. Cette solution a I'avantage de prendre en compte les six parametres du 
modele sans appauvrir la caracterisation basee sur les invariants difierentiels du premier 
ordre. De plus, les calculs sont dans ce cas realises uniquement a I'ordre en tenant compte 
d'une information de voisinage, et sont ainsi supposes stables face au bruit. 
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4.3.1.1 Notre methode de normalisation 

Pour eliminer les six parametres du modele diagonal avec translation, la solution que 
nous avons adoptee [Gouet et al., 1998b; Montesinos et al., 2000] consiste a normaliser les 
trois canaux independamment les uns des autres. Pour chaque pixel {x^ y) d'une image /, 
le niveau de gris normalise associe au plan Ip est obtenu de la fagon suivante, pour p ^ ^ \ 



Ip{x, y) = . ^^ ^"-^^"^^ ^^ ^ (4.3) 

oil ^l^xdi^) designe la i^'^^ valeur de g{x) dans Tensemble X, pour des valeurs de i 
rationnelles et quantifiees entre et 1. Par exemple, i = 1 implique le maximum de g{x)^ 
i = ^ sa valeur mediane, etc. Nous avons choisi dans nos experimentations « = ^, /8 = | 
et 7 = |. L 'equation 4.3 pent done se reecrire : 

Ipi^^y) -medi2 



^ ' med34 — medi4 

Le choix a — ^ conduit a considerer la mediane de la distribution des niveaux de gris 
du plan Ip (notee medi2), et les choix ^ = ^ et 7 = | impliquent les medianes respectives 
med34 et medi4 des deux moities de distribution issues de Ip. Cette notion est illustree par 
le schema 4.2 ci-apres. Realise pour chaque pixel et sur chaque canal, ce traitement permet 
d'obtenir une image independante des parametres D et T du modele d'illumination. 



med,. 



D 



a med^+li 



I 

■ ■ 

H Changement 

■ d 'illumination ^ 



4 a^b 

F M 

Figure 4.2 - Comportement des medianes des niveaux de gris soumis a un changement 
dHUumination affine. 

Normalisation locale 

Le processus de normalisation que nous venons de presenter a Tinconvenient d'etre sen- 
sible aux changements de composition de I'image puisqu'il est applique globalement sur 
chaque plan. C'est par exemple le cas lorsque les deux images sont prises sous des points 
de vue differents. Nous proposons alors une variante plus locale pour pallier ce probleme 
[Montesinos et al., 2000]. Pour chaque pixel du plan couleur considere, les medianes sont 
calculees localement dans une fenetre circulaire centree sur le pixel etudie. Ainsi les pro- 
prietes locales des pixels sont preservees. Cette approche requiert la donnee d'un pa- 
rametre, le diametre de la fenetre a considerer : plus les images different, plus petit le 
parametre doit etre. 
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4.3.1.2 Exemples de normalisation 



Les images utilisees normalisees tout au long de ce chapitre sont issues des sequences 
"Lezard", "Bureau" et "Bonza'i". Le lecteur pent consulter Tannexe B pour avoir des 
precisions sur la fagon dont les images de reference ont ete acquises. 

Les figures 4.3 et 4.4 montrent des exemples de normalisation locale sur cinq images 
difierant d'un changement d'illumination interne. Pour la serie "Lezard", les changements 
sont realises en modifiant synthetiquement chacun des canaux couleur selon une transfor- 
mation lineaire des niveaux de gris. Un bruit blanc gaussien est egalement ajoute pour 
plus de realisme. Les images normalisees obtenues sont presentees sur la seconde ligne. Le 
diametre de la fenetre utilisee est egal a 9. Pour la serie de la figure 4.4, nous avons utilise 
des images prises avec des ouvertures de diaphragme difierentes. Ici aussi le diametre de la 
fenetre de normalisation est de 9. Dans les deux series, les images sont classees par ordre 
croissant de la transformation operee par rapport a la premiere image. 

Les graphes associes a ces deux series traduisent la comparaison deux a deux des images 
de chaque serie avant et apres normalisation. A chaque couple d'images (/^,/j), on associe 
les distances entre les couleurs de tous les couples de pixels (/^(j:,y),/j(j:,y)) et c'est la 
mediane de ces valeurs qui est representee sur le graphe. La distance entre deux couleurs 
est tout simplement la moyenne des trois difierences de niveaux de gris en valeur absolue ; 
elle varie entre et 255. 

Les resultats obtenus sur les deux series sont similaires. Les graphes "en dent de scie" 
obtenus avant normalisation traduisent la degradation croissante des distances plus le 
changement d'illumination est important. On constate sans surprise que les distances sont 
considerablement reduites apres la normalisation. Les resultats les meilleurs sont obtenus 
avec la serie de la figure 4.3. La mediane des erreurs y est pratiquement nuUe pour tous 
les couples d'images normalisees passes en revue. Ce n'est pas surprenant dans la mesure 
oil les changements d'illumination ont ete operes synthetiquement directement a partir 
du modele diagonal avec translation. Pour I'autre figure, les medianes des erreurs apres 
normalisation sont toutes inferieures a 5, ce qui constitue une amelioration consequente. 
Ces resultats traduisent la pertinence du modele d'illumination choisi et de la technique 
de normalisation. Pour la seconde serie, les images normalisees conservent tout de meme 
quelques difierences, le modele choisi demeurant une approximation de la realite. 

Avantage par rapport aux methodes de normalisation classiques 

D'autres combinaisons permettent egalement de s'afi'ranchir des parametres du modele 
d'illumination, comme la normalisation dans I'intervalle [0..1] utilisant les extrema (a = 
7 = et ;5 = 1 en reference a I'equation 4.3), ou encore la normalisation centree-reduite. 
L'avantage du choix de la mediane comme outil de normalisation est qu'elle s'avere moins 
sensible au bruit que toute autre donnee statistique. Ce choix nous a en efiet ete confirme 
en testant les trois methodes sur plusieurs images difierant de changements d'illumination 
et en comparant les images obtenues. Les resultats obtenus a partir des images de la figure 
4.4 sont presentes a la figure 4.5. C'est la methode travaillant avec les medianes qui fournit 
les plus petites difierences entre images normalisees. 
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Figure 4.3 - Serie ^'Lezard^^ avec changement dHUumination interne (synthetique) : nor- 
malisation locale. 
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Figure 4.4 - Serie ^'Bureau^^ avec changement dHlluminaUon interne (ouverture du dia- 
phragme) : normalisation locale. 
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Figure 4.5 - Comparaison de la methode de normalisation basee sur les mediants avec les 
methodes classiques. 

Un exemple de vecteur caracteristique avant et apres normalisation 

Un exemple de vecteur caracteristique Vcoi face aux changements internes d'iUumina- 
tion est presente a la figure 4.6. Les vecteurs d'invariants sont calcules sur deux points 
d'images difierant d'un changement d'iUumination synthetique^ et bruite. Les deux dia- 
grammes de gauche representent le vecteur caracteristique avant normalisation et ceux de 
droite le representent apres une normalisation realisee localement. Nous voyons clairement 
que le traitement qui a ete opere sur les images rend la caracterisation invariante tout en 
preservant son pouvoir discriminant. 

4.3.2 Changement externe 

L 'approximation utilisee pour les changements d'iUumination externes a ete presentee 
a la section 3.3. L2 du chapitre 3. C'est un modele a n parametres si I'image contient n 
pixels. II est done bien sur impossible de rendre le vecteur des huit invariants independant 
de ce modele. La solution consiste alors a normaliser I'image. 

4.3.2.1 La methode de normalisation 



Une fagon de supprimer chacun des parametres Si consiste a multiplier chaque pixel 
(r, v^ b) par un facteur de telle sorte que Ton ait par exemple : 



r + v + b — 1 



(4.5) 



^avec comme parametres : Z>ii=0.5, 1^22=0.4, Dss^O.S, Ti=0.3,T2=0.2 et Ta^O.l. 



no 
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Figure 4.6 - Les deux vecteurs dHnvariants couleurs obtenus avant et apres normalisation. 

L'image normalisee obtenue peut alors etre calculee de maniere analogue a partir de 
toute autre image prise dans les memes conditions que la premiere, a un eventuel chan- 
gement de position de la source pres, et ceci bien sur dans la mesure oil le modele utilise 
est correct. Contrairement a la technique mise en place a la section precedente pour des 
changements internes, cette normalisation est purement locale puisqu'elle est met en jeu 
un parametre different pour chaque pixel ; en outre chacun de ces parametres depend des 
trois canaux. 

4.3.2.2 Exemples de normalisation 



Le lecteur peut voir a la figure 4.7 une serie d'images differant de changements d'illu- 
mination externes. La scene est relativement compliquee. EUe est en effet soumise a un 
eclairage naturel a peu pres constant provenant d'une fenetre situee sur la droite, ainsi 
qu'a une lampe non visible situee sur la gauche et deplacee a chaque prise. EUe contient 
egalement un certain nombre d'objets situes sur plusieurs plans, qui occasionnent des 
ombres diverses selon la position de la lampe. Notons enfin qu'il y a une forte couleur 
dominante : le bleu. Les images normalisees sont presentees sur la deuxieme ligne de la 
figure; elles ont ete traitees en tenant compte de la contrainte de Tequation 4.5. 

On constate que la normalisation permet de s'affranchir de la position des sources 
de lumiere et done des ombres. Sur les images normalisees, seules les formes ressortent. 
Comme le montre le graphe associe a la figure, les images sont dans Tensemble tres 
differentes avant la normalisation. Citons par exemple les couples d'images 1-5 et 2-5 
pour lesquels la mediane des erreurs atteint pres de 40, sur une echelle de niveaux de gris 
de a 255. En revanche, la normalisation permet d'unifier considerablement ces memes 
images, puisque les medianes des erreurs chutent toutes en dessous de 5. 

Ce traitement particulierement local a permis de rendre les images independantes 
des changements d'illumination externes. A titre de comparaison, nous avons egalement 
souhaite mettre en oeuvre sur ces memes images la technique de normalisation dediee 
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Figure 4.7 - Serie ^^Bonzai'^ avec changement dHUumination externe (deplacement de la 
lampe) : normalisation. 
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jusqu'alors aux changements internes, et bien evidemment dans sa version locale. Les 
calculs ont ete realises pour deux tallies de voisinage et les resultats sont presentes a la 
figure 4.8. 

Le graphe montre que la normalisation locale donne des resultats interessants, bien 
qu'elle ne soit pas a priori dediee aux changements d'illumination externes. On constate 
que la normalisation est d'autant plus efiicace que la taille du voisinage est reduite. Les 
resultats sont meme globalement meilleurs qu'avec la methode traditionnelle (comparer 
avec le graphe de la figure 4.7) pour une taille de voisinage de 3. 



4.3.3 Changement complexe 

Par changement complexe d'illumination, on entend la combinaison des modeles in- 
ternes et externes presentes aux deux sections precedentes. 

Considerons maintenant la serie d'images de la figure 4.9. Les images de la premiere 
ligne difierent a la fois de changements externes (toujours le deplacement de la lampe) 
et de changements internes realises synthetiquement par des transformations afiines sur 
chacun des plans couleur, avec un bruit additionnel. La methode de normalisation face aux 
changements externes a ete appliquee selon la contrainte de Tequation 4.5 et les images 
resultats sont presentees sur la deuxieme ligne de la figure. Une normalisation locale, a 
partir d'un fenetrage de taille 21, a egalement ete realisee sur les images initiales pour 
parer aux changements internes. Les images normalisees sont presentees sur la troisieme 
ligne. 

En examinant le graphe associe a toutes ces images, on constate que la normalisa- 
tion externe n'apporte aucune amelioration face a ce type de changement complexe. Les 
medianes des erreurs sont en efi'et a peine meilleures, voire moins bonnes qu'avant la nor- 
malisation. En revanche, les resultats obtenus par la normalisation locale sont une fois de 
plus particulierement probants, puisque les medianes calculees sont toutes inferieures a 3. 

Les tests realises pour cette serie d'images ne tiennent pas compte des deux modeles 
d'illumination conjointement. Pour ce faire, il faudrait envisager une methode de norma- 
lisation permettant d'eliminer les 6 + n parametres mis en jeu. Finlayson I'a realise de 
maniere iterative, mais pour le modele diagonal simple (se reporter a la section 3.3. L3 
pour le detail de la methode). Notre approche integrant un parametre de translation addi- 
tionnel, la methode s'avere plus complexe. Nous n'avons d'ailleurs pas cherche a la mettre 
en place. En efiet, a travers les diverses series d'images testees, nous avons constate que 
les resultats obtenus sur ce type de changement complexe avec une simple normalisation 
locale sont tres satisfaisants. Mettre en oeuvre une technique integrant egalement les chan- 
gements externes n'ameliorerait done pas les resultats de fagon significative, d'autant plus 
que la methode de normalisation externe possede un inconvenient majeur, qui est aborde 
au paragraphe suivant. 

Influence de la normalisation sur les invariants 

Pour etre a la fois invariant a la rotation et aux changements d'illumination, le vecteur 
Vcoi defini a I'equation 4.2 doit etre calcule a partir de I'image normalisee. La normalisation 
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Figure 4.8 - Meme serie ^^Bonzaf^ mais avec deux normalisations locales. 
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Figure 4.9 - Serie ^'Bonzai^^ avec changement dHUumination complexe : normalisation. 
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face aux changement s internes, qu'elle soit locale ou non, ne modifie en rien le pouvoir 
discriminant de Vcoi- En effet, le pre-traitement de Timage est effectue sur chacun des plans 
couleur, les uns independamment des autres et ne correle done en aucun cas Tinformation 
couleur. Pour s'en assurer, Fexperience suivante a ete realisee : trois scores de correlation 
ont ete calcules entre les trois plans couleur d'une image pris deux a deux sur un ensemble 
de points caracteristiques, ceci avant et apres normalisation. II s'avere que les scores obte- 
nus ne sont pas modifies par la normalisation de Timage. Une image ayant ses trois plans 
couleur fortement (resp. faiblement) correles le sera tout autant apres normalisation. 

En revanche, il n'en est pas de meme pour la methode de normalisation face aux chan- 
gements externes presentee a la section 4.3.2. En efi'et, la contrainte de normalisation de 
Tequation 4.5 rend les trois canaux couleur inter-dependants. L'image apres normalisation 
correspond a une description en coordonnees chromatiques \r— ^^^^^ , v — ^^^^^ [ . 
Le vecteur d'invariants Vcoi est done malheureusement reduit a3x2 — 1 = 5 invariants 
independants. 

Quelle solution adopter face a un changement complexe d'illumination ? 

Suite a ces observations, nous avons pris le parti de ne pas normaliser Fimage face 
aux changements d'illumination externes, afin de conserver la pertinence de chacun des 
invariants. Les tests qui ont ete presentes aux figures 4.8 et 4.9 montrent que, des Finstant 
oil la normalisation est envisagee localement, le modele diagonal avec translation, utilise 
seul, permet de modeliser les changements internes comme externes de maniere tout a fait 
satisfaisante. 

Le lecteur pent egalement observer aux figures 4.10 et 4.11 le resultat de la nor- 
malisation locale sur les invariants couleurs, calcules sur plusieurs images difierant de 
changements complexes d'illumination. Quatre images de la sequence "Bonzai" ont ete 
selectionnees pour ce test. EUes difi'erent de changements d'illumination externes (toujours 
le deplacement de la lampe) et nous leur avons fait subir un changement interne en appli- 
quant une transformation lineaire des niveaux de gris, et ajoute un bruit blanc gaussien. 
Ces images sont representees sur la deuxieme ligne de la figure 4.10. Les memes images 
apres normalisation locale (taille du voisinage = 21) sont representees sur la deuxieme 
ligne de la figure 4.11. Plusieurs points Harris couleur ont ete extraits d'une des images 
originates. Lors de la detection, le seuil a ete place suffisamment haut de fagon a isoler des 
points a I'endroit ou le signal possede un contenu informatif le plus riche possible. Quatre 
points ont ete obtenus, ils sont presentes sur la premiere ligne des deux figures. Les quatre 
dernieres lignes de chaque figure montrent les huit invariants couleur obtenus pour chacun 
de ces points, avant et apres normalisation selon la figure consideree. 

Nous constatons sans surprise a la figure 4.10 que pour tous les points, la caracterisation 
varie avec les images. Les difierences atteignent meme 50% pour certains invariants, comme 
en atteste par exemple le niveau de gris du plan bleu (I'invariant n°5 sur les graphes) calcule 
au point P3, qui varie du simple au double entre la premiere et la derniere image. 

En revanche, les invariants de la figure 4.11, obtenus quant a eux apres normalisation, 
varient beaucoup moins d'une image a I'autre et ce, quelque soit le point considere. On 
constate des ecarts de I'ordre de 10% dans le pire des cas. II convient d'attribuer ces 
difierences a I'approximation du modele d'illumination utilisee. 
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Figure 4.10 - Serie ^'Bonzai^^ avec changement dHllumination complexe : invariants obte- 
nus pour 4 points avant normalisation. 
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Figure 4.11 - Serie '^Bonzai^^ avec changement dHUumination complexe : invariants obte- 
nus pour les 4 memes points apres normalisation. 
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En conclusion de cette etude sur le changement d'illumination, nous dirons que la 
normalisation d'une image n'est pas une operation simple a realiser. En effet, Testima- 
tion d'un modele d'illumination realiste est delicate. Heureusement dans notre cas, une 
approximation telle que celle que nous venons de presenter et valider (le modele diagonal 
avec translation) sufEt, etant donne qu'elle sera utilisee dans un contexte de caracterisation 
locale. L'etape de normalisation meme est egalement complexe a mettre en place. Celle 
presentee ici s'avere satisfaisante. Notons tout de meme qu'il faut etre capable de fixer 
efficacement la taille de la fenetre lorsqu'elle est employee localement. 



4.4 Conclusion 

La methode de caracterisation que nous avons presentee dans ce chapitre a le princi- 
pal avantage d'eliminer un des inconvenients qui faisait jusqu'alors defaut aux invariants 
difierentiels en niveau de gris, a savoir leur sensibilite au bruit. EUe reduit en efiet a Tordre 
un le calcul des invariants difierentiels, tout en restant aussi riche. La caracterisation cou- 
leur obtenue gagne ainsi en simplicite mais surtout en robustesse. 

La deuxieme etape de nos travaux a ensuite consiste a adapter le probleme de la 
Constance des couleurs a cette nouvelle methode de caracterisation. Le modele d'illumina- 
tion adopte pour les changements internes est le modele diagonal de Finlayson mais enrichi 
d'une translation. II s'avere posseder le meilleur rapport qualite/complexite dans le cadre 
de la caracterisation locale d'images. Le cas des changements externes d'illumination a 
egalement ete etudie. Pour ne pas appauvrir la caracterisation invariante a la rotation 
basee sur huit invariants difierentiels, nous avons choisi de pre-traiter I'image afin de la 
rendre invariante a ces modeles d'illumination. La methode de normalisation mise en place 
a I'avantage d'etre robuste au bruit puisqu'elle travaille a I'ordre zero. Elle a ete egalement 
implementee localement pour ne pas perdre les proprietes locales des pixels. Des tests ont 
ete realises sur plusieurs series d'images difierant de changements d'illumination internes 
comme externes. lis ont permis d'evaluer cette approche en comparant pixel par pixel 
les images normalisees. Les resultats obtenus montrent que les images traitees par cette 
methode deviennent bien moins dependantes des changements d'illumination, les quelques 
difierences subsistant etant inherentes au modele d'illumination utilise, qui n'est bien sur 
qu'une approximation de la realite. Les images obtenues ont toutefois ete jugees satisfai- 
santes, puisque les invariants difierentiels, calcules a partir de ces images pour plusieurs 
points, ne varient plus que tres sensiblement, malgre les changements d'illumination com- 
plexes mis en jeu. La repercussion de ces normalisations sur les invariants couleur n'a tou- 
tefois ete evaluee que "visuellement" . II faudra mettre en place des methodes automatiques 
permettant de verifier que Vcoi est bien rendu invariant aux changements d'illumination. 
Ce travail sera realise dans les prochaines chapitres traitant de la mise en correspondance. 

Une fois de plus, nous avons montre I'interet de I'utilisation de la couleur. Cette infor- 
mation supplementaire permet de mettre en place des caracterisations de points d'interet 
plus robustes. Notons egalement que la methode de normalisation face aux changements 
externes, meme si nous ne I'exploiterons pas par la suite, permet de s'afiranchir des ombres. 
Ceci constitue une revolution par rapport aux images en niveau de gris, pour lesquelles le 
deplacement de la source lumineuse represente un bruit pratiquement incontournable. De 
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nouvelles possibilites de mise en correspondance s'offrent alors, que ce soit pour Tindexa- 
tion d'images ou les applications liees a la stereoscopie. Cette voie semble interessante a 
explorer. 

Dans la suite de cette these, nous utiliserons comme descripteur de points d'interet 
le vecteur Vcoi defini a Tequation 4.2, calcule dans un contexte multi-echelle avec plu- 
sieurs largeurs de gaussienne. La caracterisation sera ainsi invariante aux transformations 
euclidiennes de Fimage, aux changements d'echelle et done robuste aux changements de 
point de vue. Les images seront au prealable normalisees localement pour s'affranchir des 
changements d'illumination. 

Une fois les points d'interet detectes et caracterises, Tetape suivante consiste a les 
mettre en correspondance en comparant les caracterisations obtenues, et ceci au travers 
des differentes transformations de Timage allant jusqu'au changement de point de vue dans 
le cas le plus general. Les methodes de mise en correspondance existantes sont passees en 
revue dans le prochain chapitre, avant de presenter notre approche au chapitre 6. 
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Chapitre 5 

Methodes d'appariement - Etat de 
Part 



Dans ce chapitre^ nous passons en revue les principales methodes de mise en corres- 
pondance qui exploitent les diverses caracterisations presentees au chapitre 3. L^objectif 
de ces approches est de mettre en place une mesure de similarite permettant de les com- 
parer. Nous voyons egalement que certaines de ces methodes exploitent des informations 
geometriques plus globales pour ameliorer Vappariement. Les principales techniques de mise 
en correspondance dense, consacrees a Vappariement de Vintegralite des images, sont aussi 
presentees. 
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La mise en correspondance de points d'interet entre deux images est un probleme 
tres couteux. Afin de reduire au maximum Tespace de recherche du correspondant 
d'un point et de hmiter le risque de faux appariements, il est necessaire de mettre 
en place des contraintes. 

Une premiere contrainte de nature photometrique est la similarite qui pent exister 
entre les points provenant d'un meme point 3D, sous Thypothese de Finvariance ou quasi- 
invariance par projection. Les ensembles de caracterisation de points qui ont ete presentees 
tout au long des chapitres 3 et 4 representent des criteres pour juger si deux points se 
ressemblent, a condition d'etre capable de les comparer. Definir une mesure de similarite 
pour comparer ces vecteurs de caracteristiques represente un travail complexe qui a suscite, 
et suscite encore de nombreux travaux. Nous passons en revue dans la section 5.1 les 
principales methodes de comparaison que nous avons rencontrees. 

D'autres contraintes existent et sont pour la plupart de nature geometrique. II s'agit 
en premier lieu de la geometrie epipolaire, qui est la seule contrainte physique reliant les 
deux images. II est egalement possible de definir des contraintes semi-locales qui tiennent 
comptent de I'information contenue dans le voisinage du point. L'etude de ces contraintes 
fait I'objet de la section 5.2. Nous presentons ensuite a la section 5.3 les principales 
methodes de mise en correspondance dense existantes. 



5.1 Appariement epars selon Papproche iconique 

5.1.1 Principe : le calcul des scores d'appariement 

La mise en correspondance de deux ensembles de points issus de deux images commence 
par le calcul d'un score d'appariement pour chaque paire de points. Les scores obtenus 
indiquent quels couples ont de bonnes chances de constituer un appariement correct ou non. 
Ce score est calcule en comparant la caracterisation associee a chaque point. Des I'instant 
oil le descripteur du point ne se ramene pas a une simple valeur scalaire, toute la difficulte 
de la methode repose sur le choix d'une bonne mesure de comparaison. La definition du 
critere d'appariement est importante car elle conditionne la qualite des resultats. 

Dans les sections 5.L2, 5.L3 et 5.L4, nous passons en revue les difierents types de me- 
sures de similarite rencontres selon les principales methodes de caracterisation presentees 
precedemment. Une fois la comparaison efi'ectuee pour tous les couples de points possibles, 
il s'agit de retenir les couples associes aux meilleurs scores, qui ont toutes les chances de 
correspondre a de bons appariements. Ce travail fait I'objet de la section 5.L5. 

5.1.2 Appariement base sur une partie du signal 

Plusieurs techniques realisent la comparaison d'images ou de sous-images directement 
a partir du signal, sans passer par une caracterisation specifique. Nous presentons a la 
section 5.L2.1 la classique methode de correlation qui compare deux a deux les pixels 
des deux zones a apparier. II existe egalement une methode moins locale, qui s'applique 
dans le domaine spectral et qui exploite le spectre de puissance croise des deux signaux a 
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apparier. Cette approche porte le nom de correlation de phase et est presentee a la section 
5.1.2.2. Comme la correlation, la distance de Hausdorff definit une mesure de similarite 
entre deux ensembles de points. EUe sera presentee a la section 5.1.2.3 . 

5.1.2.1 La correlation du signal 

La correlation du signal, encore appelee "template matching" dans la litterature, est 
la methode de mise en correspondance la plus ancienne. EUe pent etre interpretee comme 
une caracterisation elementaire du signal autour d'un point : tout point est caracterise par 
Tensemble des valeurs du signal sur son voisinage. 

Fenetres de correlation 





Image 1 



Image 2 



Figure 5.1 - Calcul du score de correlation entre deux points mi et m2- 

Comme le montre en deux dimensions la figure 5.1, on calcule un score de correlation 
entre les fenetres de correlation entourant les deux points a traiter. Nous avons resume 
dans le tableau 5.1 les formules de correlation les plus classiques (SSD^, NSSD^, NCC^, 
ZNSSD^, ZNCC^) , avec leurs principales proprietes. Fi est le vecteur qui contient les 
valeurs du signal de Timage li dans la fenetre de correlation du point considere et Fi la 
moyenne de ces valeurs. Tous les scores excepte SSD sont compris dans Tintervalle [-1..1]. 



scr{Fi,F2) = Fi-F2f 
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NSSD 
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NCC 



ZNSSD 
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ZNCC 
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Table 5.1 - Tableau des principales mesures de correlation. 



Remarquons que la formule ZNCC est invariante aux transformations affines. EUe est 



^ Sum of Squared Differences 

^Normalized Sum of Squared Differences 

^Normalized Cross Correlation 

^Zero mean Normalized Sum of Squared Differences 

^Zero mean Normalized Cross Correlation 
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done bien appropriee au calcul des scores de correlation entre images dont les niveaux de 
gris different d'une transformation affine. 

L'algorithme de correlation a bien sur pour support les images de niveaux de gris. 
Mais il est egalement possible de Tappliquer a des images calculees en precision sub-pixel 
ainsi qu'a certaines des images derivees comme par exemple Timage du laplacien. Dans 
[Nishihara, 1983], Nishihara montre d'ailleurs que les resultats sont meilleurs en utilisant 
le laplacien car les pics de correlation obtenus sont plus marques. Dans [Crouzil et al., 
1996], Crouzil travaille sur les images des derivees du premier ordre : il utilise un score de 
similarite entre les gradients des pixels des fenetres de correlation pour calculer ce qu'il 
nomme la mesure de correlation du gradient des deux fenetres. Dans le cas d'images en 
couleur, il est possible de calculer un score de correlation pour chacun des plans couleur 
[Lemestre, 1997; Devernay, 1997]. II s'agit ensuite de choisir entre plusieurs operateurs 
(produit, addition, minimum, maximum, etc) pour obtenir un score unique. 

Un des inconvenients de la correlation est que lorsque les deux images possedent un 
grand nombre de points et que la fenetre de correlation est grande, le temps de calcul des 
scores de correlation est relativement long. II est neanmoins possible d'ameliorer ce temps 
si la disparite entre les deux images est faible, en n'effectuant les calculs que sur une fenetre 
de points, comme dans [Zhang et al., 1995b]. Bien sur ceci introduit une contrainte sur 
le mouvement entre les cameras. Une autre solution est de travailler sur des fenetres plus 
petites, les erreurs d'appariement ainsi generees pouvant etre ensuite eliminees a Faide 
par exemple de contraintes semi-locales comme celles de la relaxation, decrite plus loin 
dans ce chapitre. On trouve dans la litterature d'autres approches qui tentent de rendre 
la correlation plus efficace. Celle de Chou et Chen [Chou et Chen, 1990] transforme les 
images en niveaux de gris en images binaires tout en stockant les moments. La fonction de 
correlation est ensuite mise en place en utilisant un ET logique et une addition sur chaque 
paire de pixels. Zabih utilise aussi cette methode avec la distance de Hamming ; elle est 
detaillee dans [Lan et Mohr, 1997b]. II faut neanmoins remarquer que ces solutions sont 
moins performantes que la correlation traditionnelle puisqu'il y a perte d'information. 

L 'inconvenient majeur de la correlation est qu'elle n'est pas invariante a n'importe 
quel point de vue : Fimage doit avoir ete prise dans des conditions voisines afin que 
les fenetres de correlation se superposent correctement par simple translation. Une solu- 
tion envisageable dans le cas d'une rotation est de considerer des fenetres de correlation 
circulaires et de leur faire subir cette rotation afin que les signaux soient superposes cor- 
rectement (le centre de rotation sera le point considere et Tangle pourra etre determine 
en comparant par exemple les directions des gradients des deux points, si la calibration 
du systeme est inconnue). Dans [Brand, 1995] une solution impliquant des fenetres de 
correlation deformables est proposee. L'auteur suppose que les masques sont suffisamment 
petits pour qu'on puisse considerer que deux masques en correspondance sont deformes par 
une transformation afiine. Celle-ci n'est pas quelconque, les coins des fenetres respectant 
necessairement la contrainte epipolaire. 

Enfin la methode pent aussi echouer a la frontiere d'objets occultants. Dans [Lotti 
et Giraudon, 1993], un algorithme de correlation pour realiser la mise en correspondance 
d'images aeriennes est presente. Les auteurs calculent pour chaque pixel une fenetre adap- 
tative contrainte par une carte de contours extraite des images. Dans [Lan et Mohr, 1997b], 
une solution est egalement apportee a ce probleme en mettant en place une methode de 
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correlation partielle qui permet de calculer les scores de correlation uniquement sur la 
bonne partie de la fenetre a correler. EUe permet d'obtenir de meilleurs resultats aux 
frontieres d'objets occultants mais suppose que le signal obeit a une transformation affine 
d'une image a Tautre et donne de moins bons resultats que les methodes traditionnelles 
dans les autres regions de Timage. 

Dans le cas de changements d'intensite plus complexes que les changements affines, il 
existe la classe des correlations non parametriques. EUes exploitent des modeles non pa- 
rametriques et sont done moins sensibles au bruit. En addition, elles gerent mieux les effets 
non lineaires puisqu'aucune hypothese de linearite n'est utilisee. Citons notamment [Zabih 
et Woodfill, 1994] qui utilise une mesure non parametrique et locale basee uniquement sur 
les niveaux de gris de Timage ainsi qu'une mesure, non parametrique et locale egalement, 
qui tient d'avantage compte de Tinformation spatiale. La correlation selon Bhat [Bhat et 
Nayar, 1996] utilise quant a elle une mesure non parametrique qui gere tres bien les effets 
non lineaires, comme les reflets speculaires par exemple, ainsi que le bruit. Malheureuse- 
ment, Le points faible de ces approches est qu'elles sont tres sensibles aux transformations 
geometriques de Timage, et qu'elles gerent mal les occupations. 

5.1.2.2 La correlation de phase 

Nos avons vu a la section 3.2.4.1 du chapitre precedent que le signal pouvait egalement 
etre caracterise dans le domaine spectral par la Transformee de Fourier notamment. Nous 
allons voir dans cette section qu'il est possible de comparer deux images a partir de cette 
Transformee, en exploitant le theoreme du decalage qui lui est associe. La methode porte 
le nom de correlation de phase. 

Soient deux signaux bi-dimensionnels fi{x^y) et f2{x^y) diflerant d'une translation 
(xo^yo) et Fi {oox^ ooy) et F2{oOx^ ooy) leurs Transformees de Fourier respect ives^. Le theoreme 
du decalage*" nous permet de deduire : 

\F2{c0x,C0y)F^{Ux,C0y)\ 

oil * denote le complexe conjugue de la transformee. La partie gauche de I'equation 
correspond au spectre de puissance croise des deux signaux. II est alors tres facile de 
determiner les parametres xq et yo? puisque la Transformee de Fourier inverse de la partie 
droite de I'equation 5.1 est une impulsion de Dirac centree en {xo^yo) : 






-1 / F2{u)x ,U)y)Fi{u)x,U)y) 

\\F2{UJ, 



Le calcul du spectre de puissance croise permet non seulement de determiner si deux 
signaux sont identiques a une translation pres, mais aussi de calculer les parametres de 
cette translation. En Vision par Ordinateur, /i et /2 sont des images. Cela implique done 
de considerer la Transformee de Fourier dans sa version discrete. Malgre les approximations 
engendrees, les resultats de I'equation 5.2 restent valables [Kuglin et Hines, 1975]. 

^Se reporter a I'equation 3.17 du chapitre precedent pour la definition de la Transformee de Fourier. 
^Conservation de Tamplitude : F2(u;^,u;^) = Fi(a;^,a;^)e^'^^^^o+^y^o\ 
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Dans la pratique, le signal dephase obtenu contient un pic significatif au point de 
translation, mais aussi quelques pics additionnels supposes suivre une distribution normale 
centree en zero [Kuglin et Hines, 1975]. L'amplitude de tous ces pics depend bien sur du 
bruit contenu dans les deux images mais aussi de la taille de leur partie commune, une 
partie commune importante induisant un pic principal tres prononce par rapport aux 
autres pics. 

Cette methode de comparaison est particulierement robuste au bruit et aux variations 
d'illumination non uniformes, ce qui la rend bien plus appropriee que les methodes de 
correlation classiques. Notons egalement qu'elle est parfaitement applicable sur des images 
ayant subi un lissage. En effet, le theoreme de convolution conduit dans le domaine spectral 
a un simple facteur multiplicatif qui disparait avec le quotient de Tequation 5.2. 

On pent neanmoins reprocher a la methode, telle qu'elle vient d'etre presentee, de ne 
fonctionner que pour des valeurs entieres de (jjq, yo)- H existe des methodes d'interpolation 
permettant d'estimer le decalage sous-pixellique. Dans [Shekarforoush et al., 1996], une 
methode plus robuste, basee sur I'estimation de la decomposition polyphase du spectre de 
puissance croise, est proposee. 

La correlation de phase classique traite de I'appariement d'images differant d'une 
simple translation. Des travaux plus recents [Reddy et Chatterji, 1996] ont ete realises 
en vue d'etendre la methode au cas de la rotation et du changement d'echelle. Les auteurs 
proposent ainsi une methode permettant de comparer deux images a travers ces transfor- 
mations, mais aussi de determiner les parametres de translation, de rotation et les facteurs 
d'echelle (un facteur dans chaque direction) impliques. Les parametres estimes lors des di- 
verses experimentations sont tres precis, un peu moins cependant pour les changements 
d'echelle qui restent corrects jusqu'a un changement de 1.8. Ajoutons egalement que la 
methode est tout de meme beaucoup plus complexe que la version classique, puisqu'elle 
necessite le calcul de trois Transformees de Fourier et de trois Transformees de Fourier 
inverses. 

5.1.2.3 La distance de HausdorfF 

Comme la correlation, la distance de Hausdorff est une mesure de similarite permettant 
de comparer deux ensembles finis de points. Classiquement, sa formulation pour deux 
ensembles A et B est la suivante : 

H{A, B) = max(/i(A B), h{B, A)) (5.3) 



avec 

h(A, B) = max min lla - 611 (5.4) 

a^A beB 

Ainsi h{A^B) (resp. h{B^A)) est faible lorsque chaque point de A (resp. B) est proche 
d'un quelconque point de B (resp. A), et par consequent, H{A^B) traduit la similarite de 
A et de B lorsque les deux distances directes sont toutes les deux faibles a la fois. 

Utilisee telle quelle, cette distance est trop fragile. EUe devient par exemple tres grande 
lorsque un seul point de A est tres eloigne de tous les points de B, et n'est done pas 
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acceptable pour comparer deux images ou sous-images, bruitees la plupart du temps. Une 
solution avantageuse consiste a remplacer Tequation 5.4 par : 

/./(A5) = /aTimm||«-&ll (5-5) 

oil fx^xdi^) designe la /^^^ valeur de g{x) dans Fensemble X, pour des valeurs de / 
quantifiees entre et 1. Par exemple, pour / = 1, on retrouve la distance de Hausdorff 
classique de Tequation 5.4 et la mediane des minima est donnee en prenant / = ^. La 
distance ainsi definie est appelee distance de Hausdorff partielle [Huttenlocher et al., 1993]. 

Ses principaux avantages sont d'etre robuste au bruit et aux occultations, surtout si 
Ton considere la mediane dans le calcul {f = \). EUe a jusqu'a present essentiellement ete 
utilisee pour mettre en correspondance deux images dans un cadre d'indexation d'images. 
Les deux ensembles de points consideres A ^i B sont respectivement le modele recherche 
et une image de la base. Plusieurs travaux ont ete realises pour Fameliorer en la ren- 
dant independante des differentes transformations de Fimage. On les doit essentiellement 
a [Huttenlocher et al., 1993] pour Tinvariance a la translation et a [Huttenlocher et Ruck- 
lidge, 1993] pour Finvariance au changement d'echelle. Plus recemment, dans [Rucklidge, 
1997], c'est Finvariance aux transformations affines des coordonnees qui est etudiee, afin 
de traiter le cas d'objets plans projetes par projection perspective. 

5.1.3 Comparaison d'histogrammes 

Dans la section 3.3.2.1 du chapitre precedent, nous avons presente une approche de 
caracterisation couleur tres repandue et basee sur les histogrammes. Diverses variantes 
plutot satisfaisantes de ces histogrammes existent, integrant pour certaines Finvariance 
aux changements d'illumination. Pour proceder a Fappariement, il reste maintenant a 
comparer ces histogrammes entre eux. La tache se revele delicate, d'une part parce que 
la mise en place d'une distance entre histogrammes est loin d'etre triviale et d'autre part 
parce que I'algorithme de mise en correspondance doit etre capable de gerer efficacement 
la masse d'information souvent imposante que contiennent les histogrammes. Nous avons 
recense plusieurs methodes de comparaison, elles sont presentees dans la suite de cette 
section. 



5.1.3.1 Intersections d'histogrammes 

La premiere methode, sans doute la plus referencee, est celle proposee par Swain et 
Ballard [Swain et Ballard, 1991]. EUe est basee sur I'intersection d'histogrammes. L'histo- 
gramme du modele est compare aux histogrammes des images de la base selon la formule 
ci-apres, n etant le nombre de couleurs de Fespace discret des couleurs : 

Inter{H^ M) = T.U^in{K,,m^) ^^_^^ 



La valeur obtenue est entre et 1, 1 indiquant une bonne ressemblance. Swain met 
egalement en place dans [Swain, 1993] une methode empirique pour rendre Fappariement 
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moins couteux en temps de calcul. Seules les couleurs les plus representees dans les images 
et le modele sont comparees. On obtient ainsi une intersection d'histogrammes partielle. 

Dans [Funt et Finlayson, 1995], Funt et Finlayson utilisent egalement Tintersection 
d'histogrammes sur des histogrammes qui ont ete rendus insensibles aux changements 
d'illumination par la methode CCCI. 

Un avantage de cette fonction d'intersection est qu'elle neglige explicitement les pixels 
du fond qui peuvent apparaitre dans Thistogramme du modele mais pas dans Thisto- 
gramme de la base. EUe n'implique pas non plus un lourd niveau de calcul puisque 
seulement deux operations (le minimum et Taddition) sont necessaires par cellule d'his- 
togramme. La complexite est lineaire par rapport a la dimension n de Thistogramme : 
0{n). 

Un inconvenient de la fonction d'intersection est que toutes les cellules sont traitees de 
maniere egale, impliquant Tequiprobabilite des couleurs. Ennesser et Medioni ont propose 
dans [Ennesser et Medioni, 1993] une ponderation de la fonction d'intersection par des 
poids Wi pour chaque cellule. Ce poids Wi doit etre choisi proportionnel a I'importance 
de la couleur ci associee. L'application des ces fonctions ponderees permet d'ameliorer la 
discrimination d'objets. 

Dans ce contexte de caracterisation par histogramme couleur, une image pent egalement 
etre vue comme etant un point dans I'espace de I'histogramme de dimension n. Diverses 
methodes de calcul de distance dans cet espace ont alors ete proposees. 



5.1.3.2 Mesures de distance 

Si Ton considere le cadre general des espaces metriques, I'intersection d'histogrammes 
telle qu'elle a ete presentee a I'equation 5.6 ne pent pas etre consideree comme une distance, 
le calcul n'etant pas symetrique a cause de la normalisation au denominateur. Pour mesurer 
la distance entre deux histogrammes, la distance Li est utilisee par certains auteurs comme 
notamment [Mehtre et al., 1995; Strieker et Orengo, 1995] ou encore [Huang et al., 1999] 
pour la comparaison de correlogrammes^ . Sa formulation est la suivante : 



dLAH,M) = Y,\hc,-m,,\ (5.7) 



En realite, comme Swain le remarque dans [Swain, 1993], il existe sous certaines condi- 
tions une similitude entre I'intersection des histogrammes et la norme Li. Ainsi si Ton 
suppose que toutes les images contiennent le meme nombre de pixels TV, on obtient la 
relation suivante : 

l-/nier(^,M) = ^^l§M (5.8) 

Cependant la norme Li ne s'avere pas la plus adaptee pour la comparaison d'histo- 
grammes, car elle ne tient pas suffisamment compte de la ressemblance entre les couleurs. 



^Se referer a I'equation 3.30 du chapitre precedent pour la definition des correlogrammes couleur. 
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D'autres types de normes plus sophistiquees ont alors ete raises en place, comme la dis- 
tance euclidienne dans sa version generalisee definie par [Niblack et al., 1993] et presentee 
a Fequation 5.9 : 

dL,AH. M) = ^{H - M)A{H - MY (5.9) 

A represente une matrice de ponderation permettant d'inclure dans le calcul la ressem- 
blance entre les couleurs. On rencontre parfois dans la litterature le carre de cette mesure, 
on parle dans ce cas de distance quadratique [Schiele, 1997]. Notons tout de meme que 
dans la pratique, la matrice employee est bien souvent la matrice identite. La mesure ef- 
fectuee est alors une simple distance euclidienne, et souffre des memes inconvenients que 
la norme Li. La comparaison porte le nom de Test de Cramer - von Mises. 

Dans [Strieker et Orengo, 1995] oil la caracterisation est realisee a partir d'histo- 
grammes cumulatifs, les auteurs realisent leurs experimentations avec les normes Li et 
^2- lis introduisent egalement la norme Lqo (appelee Test de Kolmogorov - Smirnov) 
definie ci-apres : 

^Loo {H, M) = max \hc, - m^, \ (5.10) 

\<%<n 

Strieker montre que le test de Kolmogorov - Smirnov fournit de meilleurs resultats que 
les deux autres tests et plus generalement que les comparaisons a partir d'histogrammes 
cumulatifs sont plus robustes que celles basees sur les histogrammes classiques au sens de 
Swain. Ce test est egalement utilise et evalue par Sethi dans [Sethi et Patel, 1995], qui le 
juge comme etant le meilleur apres celui du ^ presente a la section suivante. 

5.1.3.3 Tests d'hypotheses 

Comme nous Favons vu dans la partie dediee a la caracterisation, un histogramme 
couleur pent egalement etre considere comme la realisation d'une variable aleatoire don- 
nant les couleurs dans une image. Dans ce contexte, la comparaison d'histogrammes pent 
se ramener a un probleme de tests d'hypotheses, dans lequel il s'agit de determiner si 
les deux histogrammes peuvent provenir de la meme distribution. Cette representation a 
ete introduite simultanement par les equipes de Sethi [Sethi et Patel, 1995] et de Strieker 
[Strieker et Orengo, 1995]. Plusieurs mesures sont mises en place. II s'agit en premier lieu 
du rapport de ressemblance de Yakimovsky, presente a I'equation 5.11 ci-apres : 

y{II, M) = , ;/ , ^ , (5.11) 

ou a^ est la variance de la population formant les deux histogrammes, a\ la variance 
de I'histogramme / et nu et um les tallies de chacune des populations. 

Le test de dissimilarite du x^ est egalement employe pour determiner la similitude entre 
deux distributions discretes. II est base sur I'hypothese que les distributions considerees 
sont gaussiennes. La mesure la plus communement rencontree est donnee par : 

] sinon 
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Les experiences menees par les deux equipes sur un ensemble de donnees experimentales 
ont montre que cette derniere mesure conduit a de meilleurs resultats que Tintersection 
d'histogrammes, la distance euclidienne generalisee ou encore le test de Kolmogorov - 
Smirnov. EUe a tout de meme Tinconvenient de ne pas etre metrique, Tinegalite triangulaire 
n'etant pas satisfaite. Schiele propose alors dans [Schiele, 1997] une fonction modifiee qui 
elle, est metrique. L'auteur precise qu'elle donne des taux de reconnaissance eleves par 
rapport aux autres fonctions, mais qu'elle n'a pas la meme qualite de resultats que les 
statistiques x^ originales. 

Toujours dans [Schiele, 1997], une etude est menee sur la stabilite de la plupart des 
fonctions de comparaison que nous venons de presenter. Leur robustesse est evaluee en 
presence de bruit gaussien, de flou (simule par un filtrage repete utilisant la moyenne), 
mais aussi face aux rotations de Fimage, aux changements d'illumination. Les tests revelent 
un comportement instable de la fonction d'intersection en presence de bruit, de flou et de 
rotations image. Les resultats sont meme les plus mauvais pour le changement d'eclairage. 
Encore une fois, ce sont les tests bases sur le x^ qui s'averent les plus stables quelles que 
soient les transformations considerees. 

Citons pour flnir un exemple d'application recent utilisant cette mesure de comparai- 
son : nous avions entre autre detaille dans la partie caracterisation (cf. section 3.3.2.1) les 
travaux de Siggelkow et Schael sur les histogrammes couleur, qui visaient a ameliorer les 
histogrammes au sens de Swain pour mieux tenir compte de la distribution spatiale des 
couleurs tout en gardant Tinvariance a la rotation. Dans [Siggelkow et Schael, 1999], ils 
utilisent cette methode de caracterisation, accompagnee du test du x^ de Tequation 5.12 
pour faire de la classiflcation de textures. 



5.1.4 Appariement base sur les invariants differentiels 

Dans le chapitre precedent sur la caracterisation, nous avons passe en revue un certain 
nombre d'invariants difl'erentiels qui permettent de caracteriser les points d'interet. Que 
Ton considere le jet local (cf. section 3.2.1.1), les flltres directionnels (cf. section 3.2.1.2) 
ou encore les invariants de Hilbert (cf. section 3.2.1.3), il s'agit a present d'etre capable 
de comparer les ensembles d'invariants engendres. C'est ainsi que Ton pourra proceder a 
Tappariement des points. 

Le probleme est done de decider si deux ensembles d'invariants sont similaires. La 
premiere idee qui vient a I'esprit est d'utiliser la distance euclidienne L27 mais elle s'avere 
inappropriee ici car les diflerentes composantes du vecteur d'invariants n'ont pas necessai- 
rement le meme ordre de grandeur ni les memes tolerances au bruit. II faut done envisager 
d'autres methodes plus sophistiquees. Les plus utilisees sont la correlation et la distance 
de Mahalanobis, elles sont presentees ci-apres. Le probleme de la mise en correspondance 
dans un contexte multi-echelle est egalement traite a la section 5.1.4.3. 



5.1.4.1 La correlation 

II est possible de calculer un score de correlation entre les deux vecteurs a comparer. 
Dans [Rao et Ballard, 1995], Rao utilise cette solution avec la formule de correlation NCC 
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(cf. table 5.1). II obtient de bons resultats, ceci du en grande partie au fait qu'il travaille 
sur des vecteurs de grande dimension contenant le jet local directionnel jusqu'a Tordre 3 
et a 5 niveaux d'echelle, soit 45 invariants. II montre en effet que les espaces de grande 
dimension tendent a etre orthogonaux. On entend par vecteurs orthogonaux deux vecteurs 
pour lesquels on est incapable de dire s'ils se ressemblent beaucoup ou pas du tout. Done si 
la taille du vecteur d'invariants est importante, seulement une minorite des scores calcules 
sera tres proche de 1 alors que la majorite sera localisee autour de 0, ce qui les rend plus 
discriminants dans la recherche des bons couples. On comprend done aisement Tinteret 
de cumuler les invariants differentiels a plusieurs niveaux d'echelle lorsque cet outil de 
comparaison est utilise. 

5.1.4.2 La distance de Mahalanobis 

Une autre solution, plus rigoureuse mais plus difficile a mettre en oeuvre, est d'utiliser 
la distance de Mahalanobis, en modelisant les composantes du vecteur par des variables 
aleatoires gaussiennes. C'est la solution adoptee par Schmid [Schmid, 1996] pour comparer 
les invariants differentiels calcules jusqu'au troisieme ordre en niveau de gris. 

La distance de Mahalanobis est une distance statistique qui utilise la matrice de cova- 
riance A des composantes du vecteur. EUe est donnee par Tequation ci-apres, pour deux 
vecteurs vi et V2 a comparer : 

S{vuV2) = {vi-V2fK-\vi-V2) (5.13) 

Cette distance se revele etre particulierement bien appropriee pour comparer les vec- 
teurs d'invariants car la matrice A permet de tenir compte dans le calcul de la variation de 
chacune des composantes ainsi que de leur eventuelle correlation. La qualite des resultats 
depend done tres fortement de la representativite de cette matrice. Mais son estimation 
est tres complexe a realiser de fagon theorique puisque la forme du signal autour du point 
d'interet est quelconque. Une solution consiste a Festimer de maniere empirique. Comme 
c'est une grandeur statistique, son estimation necessite la donnee de n observations de 
ces composantes. La methode employee est la suivante : etant donne un point d'interet 
apparaissant sur n images, les n vecteurs d'invariants qui lui sont associes sont calcules, 
ce qui permet d'estimer la matrice de covariance associee a ce point. Ce calcul est tres 
delicat a realiser car une erreur de seulement un pixel dans I'appariement des n obser- 
vations engendrera des erreurs dans toute la matrice. II doit aussi tenir compte du bruit 
des images utilisees. Afin done de minimiser les erreurs mais aussi d'obtenir une matrice 
representative de la variete des points envisageables, le calcul est effectue pour k sequences 
de points sur des scenes les plus variees possibles. La matrice de covariance globale est 
enfin calculee en prenant la moyenne des k matrices calculees. La qualite des resultats 
obtenus depend bien sur de la qualite de I'appariement des observations, du nombre de 
sequences de points utilisees et de la variete des images choisies. 

La distance de Mahalanobis est egalement interessante car c'est une variable aleatoire 
qui suit la distribution dn y^ k p degres de liberte, pour des vecteurs d'invariants de 
dimension p. II est done possible d'utiliser une table de cette distribution pour seuiller la 
distance et ainsi rejeter les appariements qui ont la plus grande probabilite d'etre faux, 
c'est-a-dire ceux qui correspondent aux plus grandes valeurs de la distance. 
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Changement de base 

Une alternative existe pour simplifier rutilisation de la distance de Mahalanobis lors 
de la comparaison des vecteurs d'invariants. En realite, si n est la dimension des vecteurs 
traites, alors Tensemble des vecteurs qui peuvent correspondre a un vecteur donne se situe 
dans un ellipsoide a n dimensions, centre autour de ce vecteur. II est alors possible de 
realiser un changement de base permettant Tutilisation de la distance euclidienne pour 
comparer les deux vecteurs. 

La matrice de covariance A etant reelle symetrique et semi-definie positive, il est pos- 
sible de la decomposer comme suit : 

A-i = P^DP = P^VdVdP (5.14) 

oil P est orthogonale et D positive diagonale. La distance de Mahalanobis S pent done 
etre decomposee de la fagon suivante : 



S{vuV2)^ = {v2-vifP^VDVD{v2-vi) 

VDP{v2 -vi)]^ [VDP{v2 - vi)] 



\/DPv2 - VDPvi 
VDPv2 - VDPvi 



[VDPv2 - VDPvi 



(5.15) 



Calculer la distance de Mahalanobis entre deux vecteurs est done equivalent a trans- 
former ces deux vecteurs en les multipliant par la matrice \/DP puis a calculer la distance 
euclidienne entre les deux vecteurs obtenus. 



5.1.4.3 Contexte multi-echelle 

Nous avons vu dans la section 3.2.1.4 du chapitre precedent qu'il est conseille de calculer 
les vecteurs d'invariants a plusieurs niveaux echelles, afin de rendre la caracterisation 
encore plus discriminante, mais egalement pour etre capable de gerer les changements 
d'echelle entre deux images. Dans ce dernier cas, le facteur d'echelle etant en general 
inconnu, on a en effet recours a une approche multi-echelle dans laquelle les derivees 
discretes sont calculees sur plusieurs supports. Comme elle a integre la detection des 
points d'interet, Tapproche multi-echelle doit alors egalement gerer la comparaison des 
vecteurs caracteristiques. II s'agit d'etre capable de selectionner pour chaque couple de 
points compares les vecteurs qui correspondent au bon facteur d'echelle entre les deux 
images. 

Dans ces conditions, une premiere methode de comparaison a ete developpee par Rao 
dans [Rao et Ballard, 1995]. La methode de caracterisation qu'il utilise est celle basee sur 
les filtres direct ionnels ; elle a ete presentee a la section 3.2.1.2. Les invariants sont calcules 
a cinq niveaux d'echelle. L 'appariement est alors realise en comparant par correlation les 
vecteurs d'invariants de chaque paire de points en leur ayant fait au prealable subir un ou 
plusieurs «decalages», permettant d'envisager plusieurs changements d'echelle. On retient 
ensuite les appariements correspondant au decalage pour lequel la mise en correspondance 
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a obtenu les meilleurs scores. Bien sur cette methode suppose une connaissance au moins 
approximative du changement d'echelle existant entre les deux images, pour appliquer le 
decalage adequat. Les experimentations menees montrent cependant que cette technique 
ne resiste pas a des changements d'echelle superieurs a 10%. 

Dans [Schmid et Mohr, 1996], Schmid developpe une methode qui ne necessite pas la 
connaissance du changement d'echelle. Les supports Uk de gaussienne sont calcules par 
rapport a un support de reference ao que Ton fait varier d'un facteur 1.2^^, n etant un 
entier. Par exemple, pour ctq = 1 et n = 4, on obtient les supports 0.48, 0.58, 0.69, 
0.83, 1, 1.2, 1.44, 1.73, 2.07. Les invariants sont alors calcules par rapport a toutes ces 
echelles. Puis, pour chaque point, on compare le vecteur d'invariants associe au support 
<Jo aux vecteurs d'invariants des autres points. Le couple de points associe aux supports 
(ao,aj) ayant le meilleur score d'appariement est conserve. Le processus est ensuite realise 
dans I'autre sens, en retenant les meilleurs couples ayant (o"^,o"o) pour supports. Parmi 
les deux listes d'appariements obtenues, les couples qui seront definitivement conserves 
sont ceux qui se sont selectionnes mutuellement et pour lesquels les supports ai et Uj sont 
complementaires, i.e. Uj — a^^ , Les auteurs montrent que les resultats sont satisfaisants 
(avec des taux d'appariements corrects autour de 90%) pour des changements d'echelle 
allant jusqu'a 1.5 et se degradent nettement au dela. 

La mise en correspondance au travers des changements d'echelle se revele en realite 
plus delicate a mettre en oeuvre que prevu. Outre I'impact important du changement de 
resolution sur la detection des points ainsi que sur les donnees photometriques, il s'avere 
que la partie commune entre les deux images a apparier pent se retrouver tres reduite. Le 
risque de faux appariements en est done augmente, particulierement lorsque I'on utilise 
une description locale du signal pour realiser cet appariement. 

Dans [Dufournaud et al., 2000], une approche plus complete est proposee pour tenter 
de pallier ces problemes. Un espace d'echelle est construit sur I'image possedant la plus 
haute resolution (la plus proche de la scene). Les auteurs prennent 20 niveaux d'echelle 
pour leurs experimentations. Pour trouver parmi tous les facteurs si celui qui s'approche 
le plus du facteur reel, ils definissent un critere C{si) qui doit etre maximum lorsque 
I'appariement des points entre les deux images est correct pour I'echelle Si consideree. Ce 
critere correspond au nombre de points apparies correctement par I'algorithme de mise 
en correspondance et est determine automatiquement en utilisant la transformation affine 
qui lie les deux images (cf. I'equation 1.8). Celle-ci est estimee de fagon robuste par la 
methode RANSAC sur les points qui ont ete apparies par des methodes locales [Schmid, 
1996]. Cette verification par application d'une contrainte globale permet d'accepter ou de 
rejeter les appariements a partir d'une contrainte physique reelle : le mouvement de la 
camera. A I'issu de la mise en correspondance, le facteur du changement d'echelle le plus 
proche de la realite est egalement determine. II faut noter qu'a partir du moment ou la 
methode robuste estime correctement la transformation globale, les points sont necessaire- 
ment apparies correctement. Les auteurs precisent que cette estimation est toujours fiable 
si le taux de mauvais appariements initiaux est inferieur a 50%. Les experimentations 
menees se revelent probantes pour des facteurs d'echelle allant jusqu'a 6. Remarquons 
tout de meme que la qualite de I'appariement se degrade lorsque la scene a un relief 
trop prononce, le changement d'echelle entre les deux images n'etant plus dans ce cas 
exactement le meme partout. 
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5.1.5 La procedure d'appariement 

Une fois les scores d' appariement calcules pour tous les couples de points, il s'agit 
de determiner ceux qui ont la plus grande probabilite d'etre bien apparies, en etudiant 
les scores obtenus. Le but de la procedure d'appariement consiste meme a ne garder que 
des paires dans lesquelles chaque point n'est implique qu'une seule fois, pour respecter 
la contrainte d'unicite^ selon laquelle un point doit avoir un correspondant unique dans 
Tautre image [Marr et Poggio, 1976]. Plusieurs approches sont possibles : 



5.1.5.1 Algorithme "Winner Takes AH" 

C'est la methode la plus simple. EUe consiste a fournir un correspondant a chaque 
point de la premiere image en ne retenant que le correspondant associe au meilleur score 
d'appariement. EUe respecte la contrainte d'unicite mais a les principaux inconvenients de 
ne pas etre symetrique (elle ne fournirait en effet pas les memes appariements en partant 
de I'autre image) et d'imposer un correspondant a un point qui pourrait etre occulte dans 
I'autre image. Une premiere amelioration consiste done a realiser une verification croisee. 
La methode est presentee dans la prochaine section. 



5.1.5.2 Mise en correspondance par appariement croise 

La methode de mise en correspondance par appariement croise fournit directement un 
ensemble de couples de points qui a I'avantage d'etre symetrique. Chaque point apparie 
n'est implique que dans un seul appariement mais tous les points ne trouvent pas neces- 
sairement de correspondant. 

Pour chaque point des deux images, on selectionne le couple qui a le score le plus eleve. 
Les paires de points retenues sont celles qui ont ete mutuellement select ionnees, comme 
I'illustre la figure 5.2. 




Figure 5.2 - Illustration de la mise en correspondance par appariement croise. 



Cette methode est plus satisfaisante que la precedente. Mais dans la pratique plusieurs 
points d'interet d'une meme image peuvent posseder des caracteristiques similaires. Cela 
conduit a calculer pour un meme point des scores d'appariement tres proches, dits ambigus^ 



^Rappelons d'ailleurs que cette contrainte pent etre violee pour des objets transparents ou lorsque 
plusieurs objets sont alignes. 
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pour ces correspondants potentiels. En presence de bruit, il est done possible d'etre amene 
a selectionner a tort un couple de points, sous pretexte qu'il possede le score le plus 
eleve. Dans [Rao et Ballard, 1995], Rao suggere Tutilisation de vecteurs de caracteristiques 
de grande dimension pour diminuer cette probabilite d'erreur. Ceci n'est pas praticable 
pour tous les types de caracterisation, comme notamment avec les invariants differentiels 
qu'il faudrait calculer a des ordres de derivation plus importants. Dans ce contexte, la 
solution par appariement croise apparait trop directe pour donner des resultats reellement 
satisfaisants. L'utilisation de methodes moins "severes", comme le seuillage accompagne 
de contraintes semi-locales, nous semble plus approprie. 



5.1.5.3 Utilisation d'une fonction de seuillage 

Le seuillage des scores d'appariement obtenus consiste a eliminer de I'ensemble des 
appariements les couples possedant un score inferieur a une certaine valeur donnee. Dans 
le cas de la correlation (cf. section 5.1.2.1) ou de la distance de Hausdorff (cf. section 
5.1.2.3), ce travail est delicat puisqu'on ne connait pas a priori la valeur du seuil qu'il faut 
considerer. II est la plupart du temps choisi arbitrairement par rapport a la moyenne ou 
la mediane de I'ensemble des scores. En revanche, la distance de Mahalanobis (cf. section 
5.1.4.2) etant une variable aleatoire qui suit la distribution du x^, il est possible d'utiliser 
une table de cette distribution pour calculer le seuil. En ce qui concerne les normes Li et 
L2 entre histogrammes (cf. section 5.1.3.2), une etude a ete menee dans [Strieker et Swain, 
1994] portant entre autre sur I'estimation du seuil a considerer. 

Une fois les appariements improbables elimines, il reste un ensemble de couples de 
points qui constituent les appariements potentiels. Ces couples ne respectent en general 
pas la contrainte d'unicite. Afin d'eliminer les eventuelles ambiguites de cet ensemble, il 
est d'usage d'utiliser des contraintes de coherence basees sur le voisinage du point ainsi 
que des contraintes geometriques, comme nous allons le voir dans la prochaine section. 



5.2 Contraintes geometriques 

La liste de contraintes geometriques que nous enumerons dans cette section n'est pas ex- 
haustive. EUe donne les principales contraintes utilisees par les algorithmes de stereoscopie. 
II s'agit tout d'abord a la section 5.2.1 d'une contrainte basee sur la geometrie epipolaire 
du systeme stereoscopique. Puis a la section 5.2.2, nous developpons la technique dite de 
relaxation, qui utilise quant a elle des contraintes semi-locales basees sur le voisinage. 

D'autres contraintes existent, comme la contrainte d'ordre, de continuite ou encore 
la limite du gradient de disparite [Pollard et al., 1985]. Mais elles sont peu utilisees dans 
la pratique car elles ne s'appliquent pas dans de nombreux cas. Selon les applications 
envisagees, d'autres contraintes plus specifiques sont parfois utilisees, comme par exemple 
lorsqu'on a une connaissance a priori du contenu de la scene a traiter ou des limites 
maximales et minimales de sa profondeur. 
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5.2.1 La geometrie epipolaire 

La contrainte epipolaire est la seule relation geometrique qui lie deux images stereosco- 
piques dans un contexte non calibre. Pour d'avantage de details, le lecteur pent consulter la 
section 7.3. LI du chapitre 7 qui lui est dediee. Cette contrainte est tres utile ici puisqu'elle 
permet de ramener le probleme bidimensionnel de la mise en correspondance a un probleme 
unidimensionnel de recherche le long des lignes epipolaires conjuguees. C'est la contrainte 
geometrique la plus puissante et elle est toujours verifiee. 



5.2.2 Contraintes semi-locales : la relaxation 

II existe une classe d'algorithmes iteratifs tres populaires en Vision par Ordinateur, 
utilises entre autres par [Faugeras et Berthod, 1981; Horaud et Monga, 1993; Zhang 
et al., 1995b; Laveau, 1996; Schmid, 1996], dits algorithmes de relaxation. Les problemes 
qu'ils permettent de resoudre s'expriment sous la forme de la minimisation d'une fonction 
d'energie globale, appelee alors critere de relaxation. Cette fonction decrit les interac- 
tions locales entre les primitives que Ton souhaite extraire et un ensemble d'observations. 
Cette minimisation, non lineaire dans la plupart des cas et portant sur un nombre tres 
eleve de variables, est usuellement menee par les algorithmes de relaxation. Dans le cadre 
de recherche qui est le notre, ces approches semblent bien appropriees pour pallier le 
probleme des correspondances ambigues, en permettant de generer un ensemble de cor- 
respondances coherent. II faut done definir un critere de relaxation qui prenne en compte 
ces considerations, Tetape de la relaxation consistant a le minimiser. 

Le critere de relaxation traditionnellement utilise est base sur des contraintes de voi- 
sinage du point. Dans ce contexte, la relaxation consiste a propager, inhiber ou renforcer 
des hypotheses d'appariements par rapport a leur voisinage. Une probabilite initiale mesu- 
rant la qualite de Thypothese locale est affectee a chaque appariement. Cette probabilite 
est revisee suivant la compatibilite du voisinage. De cette maniere, les points d'interet 
se reorganisent en propageant ces contraintes. Apres un certain nombre d'iterations, le 
systeme converge vers un ensemble de correspondances non ambigues suffisamment grand. 
Notons que cette technique impose des couts de calcul relativement importants. 

Une contrainte de voisinage 

La contrainte de voisinage qui est classiquement utilisee prend en compte la configura- 
tion relative des points d'interet. Ainsi une paire de points (mi, 7712) est consideree comme 
etant un bon appariement si dans le voisinage de mi on trouve un assez grand nombre 
de points bien apparies avec des points du voisinage de m2. Cette idee est illustree par la 
figure 5.3. 

Cette contrainte est valable quelles que soient les transformations geometriques ou 
photometriques existant entre les deux images a apparier. Elle est notamment utilisee par 
[Zhang et al., 1995b; Schmid, 1996]. 

La contrainte de voisinage est generalement accompagnee de contraintes geometriques 
qui permettent une verification supplementaire des appariements trouves. Pour [Schmid, 
1996] par exemple, la contrainte est basee sur la conservation des angles, qui est toujours 
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Voisinage de iiii/m2 




Image 1 



Image 2 



Figure 5.3 - Contraintes de voisinage autour d^un couple de points {mi^m2) en correspon- 
dance. 

verifiee dans le cas des similitudes entre images. Ainsi Tangle defini par deux voisins 
d'un point doit etre constant pour toutes les vues de ce point. D'autres contraintes sont 
egalement envisageables, comme la distance entre le point etudie et ses voisins [Zhang et al., 
1995b]. Nous verrons dans le prochain chapitre qu'il est possible de mettre en oeuvre un 
systeme de contraintes geometriques sophistique permettant de reduire considerablement 
le nombre de faux appariements. 



5.2.3 Autres contraintes geometriques 

La geometrie epipolaire est la contrainte geometrique bi-lineaire qui existe entre deux 
images. Si plus de deux cameras sont utilisees pour la mise en correspondance, il est 
possible d'utiliser des contraintes multi-lineaires d'ordre superieur, afin de rendre les ap- 
pariements encore moins ambigus. Dans le cas de trois cameras, les trilinearites sont la 
plus connue des contraintes geometriques. EUe ont ete introduites par Shashua [Shashua, 
1994] dans un contexte de reconnaissance d'objets a partir de vues differentes, et sont 
equivalentes au tenseur trifocal de Hartley [Hartley, 1994]. Ces contraintes sont exprimees 
par quatre relations qui existent entre les trois projections d'un point de la scene tridimen- 
sionnelle. Comme pour la geometrie epipolaire, il est possible de les estimer a partir de 
correspondances eparses, lorsque la calibration n'est pas disponible. Pour une plus ample 
description des trilinearites, le lecteur pent se reporter au chapitre 7 de ce memoire, et 
plus generalement a la these de Laveau [Laveau, 1996] pour la geometrie des systemes de 
N cameras. 



5.3 Mise en correspondance dense 



L'appariement dense consiste a mettre en correspondance autant de pixels que pos- 
sible dans les deux images. Vouloir apparier les pixels uniquement a Faide des methodes 
presentees dans la section 5.1 n'est pas applicable, I'espace de recherche etant bien trop im- 
portant. II est fondamental d'utiliser des contraintes geometriques supplementaires telles 
que la contrainte epipolaire (cf. section 5.2.1), la limite de disparite, les contraintes de 
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coherence globale (les appariements ne sont cherches que dans des regions voisines des 
appariements des voisins). Parmi toutes les contraintes qui peuvent etre envisagees, la 
geometrie epipolaire est toujours verifiee dans le cas de scenes rigides et permet de reduire 
Tespace de recherche des correspondances. Lorsque les cameras sont calibrees, elle est 
directement disponible. Si ce n'est pas le cas, des methodes robustes permettant son esti- 
mation existent (elles seront developpees au chapitre 7) ; mais elles necessitent la donnee 
d'un certain nombre de mises en correspondance eparses. II est done classique de proceder 
au prealable a la mise en correspondance de points d'interet avant d'envisager une mise 
en correspondance dense. 

Des methodes d'optimisation ont egalement ete mises en place en vue d'ameliorer les 
resultats de mise en correspondance et d'en reduire encore la complexite. Les principales 
methodes rencontrees sont passees en revue : 



5.3.1 Rectification des images 

Lorsque la contrainte epipolaire est utilisee pour proceder a Tappariement, le balayage 
du faisceau s'avere fastidieux. C'est pourquoi on effectue couramment une rectification des 
images avant de les apparier. Cette operation consiste a reprojeter les images originales sur 
un plan parallele a la droite (Ci,C2) passant par les centres optiques des deux cameras, 
appele alors plan de rectification. 

Par cette transformation, les epipoles des images rectifiees sont repousses a Finfini le 
long de (Ci,C2) qui correspond aussi a la direction des abscisses des images rectifiees. 
Les lignes epipolaires se retrouvent ainsi alignees avec les lignes de Timage, ce qui rend le 
parcours de la droite plus simple a implementer. A Tissue de la mise en correspondance, 
les images sont ensuite "derectifiees" . 

La rectification a cependant Tinconvenient d'introduire dans le traitement deux etapes 
d'interpolation qui sont sources d'imprecision. Dans le cas ou Tangle de convergence 
entre les deux cameras est faible (les lignes epipolaires sont quasi horizontals), Tetape 
de rectification entraine une perte de precision sans vraiment apporter d'information 
complementaire. Pour d'avantage de details, le lecteur pent consulter [Devernay, 1997] 
qui consacre un chapitre de sa these a Texamen des methodes de rectification, selon des 
points de vue geometriques puis algebriques et presente egalement une methode de recti- 
fication locale. 



5.3.2 Extension des methodes d'appariement epars 

II s'agit simplement ici d'appliquer la procedure d'appariement epars presentee a la sec- 
tion 5.L5, mais sur un plus grand nombre de points, avec au moins la contrainte epipolaire 
et le plus souvent une contrainte de disparite. 

La methode est la suivante : pour chaque pixel pi de la premiere image, on calcule 
un score d'appariement (selon une des methodes presentees a la section 5.1) pour tous les 
pixels appartenant a la droite epipolaire associee kpi. II est ensuite possible de determiner 
le correspondant potentiel de pi en utilisant la methode WTA (cf. section 5.1.5.1) ou plus 
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efficacement, la methode par appariement croise (cf. section 5.1.5.2). Si c'est la seconde 
methode qui est employee, la carte de disparite obtenue comporte des zones non ren- 
seignees, correspondant le plus souvent a des occultations. Cette approche a ete utilisee 
pour la premiere fois dans [Fua, 1991]. II est egalement possible de lui adjoindre une 
fonction de seuillage. 

Une variante de cette technique, que Ton doit a [Pollard et al., 1985], consiste a calculer 
le score d'appariement entre deux pixels en prenant la somme des scores d'appariement 
entre les pixels de leurs voisinages respectifs. Cette idee n'est d'ailleurs pas sans rappeler 
la contrainte de voisinage de la relaxation mais appliquee ici sur des pixels (cf. section 
5.2.2). La technique d'appariement est egalement sensiblement differente, puisque que 
des qu'un couple est retenu apres avoir fait la verification croisee, les pixels impliques 
dans Tappariement sont elimines de Tespace de recherche. Cela conduit a construire un 
ensemble de mises en correspondance plus important qu'avec la methode classique par 
appariement croise, et certainement moins fiable puisque des points qui n'auraient pas 
du avoir de correspondant avec la methode classique, a cause de scores d'appariements 
trop faibles, peuvent se retrouver apparies. Cependant la technique merite d'etre citee, de 
par la nouveaute du calcul des scores d'appariement. En efiet, elle permet d'integrer une 
contrainte de gradient de disparite, en plus de la contrainte epipolaire et de la contrainte 
d'unicite. 

Jusqu'a present, c'est traditionnellement la correlation qui est utilisee pour calculer les 
scores d'appariements, avec toutes les contraintes que cette technique impose (cf. section 
5.1.2.1). Pour diminuer les temps de calcul trop couteux, les adeptes de la correlation, ci- 
tons bien sur [Hannah, 1989], travaillent sur I'image a plusieurs niveaux de resolution. lis 
utilisent I'approche hierarchique^^ developpee initialement par Moravec [Moravec, 1977]. 
Des travaux tres recents [Lew et Huang, 1999] permettent meme d'optimiser la recherche 
dans le graphe de la hierarchie en utilisant I'algorithme A*, issu du domaine de I'intelli- 
gence artificielle. 



5.3.3 Resolution par programmation dynamique 

Les algorithmes de programmation dynamique sont apparus il y a une quinzaine 
d'annees. lis appliquent cette technique de recherche operationnelle a I'appariement de 
deux listes de points ordonnees. Le principe est une recherche de chemin optimal dans un 
graphe. Celui-ci est construit en plagant en abscisse les points de la premiere image et en 
ordonnees les points de la seconde. Chaque noeud du graphe represente un appariement 
potentiel. Une fonction de cout elementaire est definie pour chaque portion du chemin re- 
liant deux noeuds successifs. Pour apparier les deux listes de points, on examine les scores 
d'appariement de chaque noeud (i, j). Le score obtenu determine si le noeud etudie consti- 
tue un appariement valide, puis en fonction du resultat, les noeuds {% + 1, j), (i, j + 1) et 
(i + 1, j + 1) sont examines a leur tour, en tenant compte du cout elementaire de chacune 
de ces transitions. L'algorithme de programmation dynamique permet de trouver le che- 
min optimal menant du premier au dernier noeud, le cout total du chemin etant egal a 
la somme des couts elementaires des transitions le composant. La contrainte d'unicite est 



^^Consulter [Dyer, 1987] pour un excellent etat de I'art sur les approches hierarchiques et leurs applica- 
tions. 
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implicitement respectee, ainsi que la contrainte d'ordre. Dans le cadre de la mise en corres- 
pondance d'images, il est necessaire d'integrer au calcul la geometrie epipolaire, la notion 
d'ordre n'ayant un sens que sur les lignes epipolaires conjuguees. La bonne marche du 
systeme depend en fait du reglage des couts elementaires entre chaque noeud. lis s'averent 
tres delicats a regler, car ils peuvent entierement changer le comportement de Talgorithme. 
De meme, la contrainte d'ordre s'avere etre un inconvenient pour de nombreuses scenes, 
oil les "croisements" entre appariements ne sont pas rares^^. 



5.3.4 Approches energetiques 

II s'agit ici d'optimiser globalement la mise en correspondance dense entre les deux 
images. Chaque configuration de mise en correspondance represente une certaine energie, 
que Ton essaie de minimiser. 

Une implementation utilisant un recuit simule est proposee dans [Ouali et al., 1996]. 
L'ensemble des appariements constitue la configuration du systeme. L'energie est alors 
calculee a partir de la valeur de correlation des points, d'un terme de lissage (sauf sur 
les contours pour ne pas lisser les ruptures de disparite) ainsi que d'une contrainte sur 
le nombre de points occultes. Cette derniere contrainte sert a eviter de converger vers 
une solution pour laquelle aucun point ne serait apparie et oil l'energie engendree serait 
nuUe. Les contraintes d'unicite et epipolaire sont assurees par la forme des configurations 
autorisees. Cependant, I'implementation n'est realisee que sur des images de tres petites 
dimensions et les ponderations des difierents termes d'energie ne sont pas connues, rendant 
ainsi revaluation de la methode difficile. 

Dans [Robert et Deriche, 1996], le probleme est pose de la meme fagon mais ici on 
cherche a minimiser l'energie sur la profondeur Z de chaque point. La fonction d'energie 
est composee d'un terme d'energie MuiZ) ainsi que d'un terme de regularisation S{Z). 
Mi2{Z) definit une mesure de similarite entre les points en correspondance dans les deux 
images. Dans la pratique, il integre le niveau de gris du point mais egalement des donnees 
multi-dimensionnelles comme le gradient ou la couleur. En outre, les systemes compor- 
tant plus de deux oculaires peuvent facilement etre geres par une simple sommation sur 
Mij{Z). Le terme regularisateur S{Z) permet de contraindre la forme de la fonction de 
profondeur Z. II doit preserver les discontinuites. Les auteurs choisissent un terme de 
filtrage anisotropique qui n'opere pas dans les directions perpendiculaires aux contours. 
Les resultats obtenus sur un couple d'images synthetiques sont tres bons. Cependant, la 
methode necessite un etalonnage des cameras pour le calcul des profondeurs Z. 



5.3.5 Regularisation des appariements 

Les algorithmes de mise en correspondance dense ne calculent generalement pas un 
appariement rigoureusement dense. De plus, ils ne renvoient une valeur de disparite que 
pour les pixels oil le calcul est possible, c'est-a-dire les pixels non occultes. Dans ce contexte, 
la carte de disparite finale comportera des zones non renseignees. L'etape de regularisation 
consiste a remplir les zones manquantes par une information de disparite. 



^Citons I'exception des images aeriennes, pour lesquelles la contrainte d'ordre est toujours respectee. 
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Un filtrage simple ne peut pas convenir, car il aurait pour effet de lisser la carte et 
les frontieres d'occultation deviendraient mal definies. Un filtre median convient mieux ; 
il preserve les contours, mais a Tinconvenient d'etaler les appariements isoles en des amas 
de faux appariements. II est aussi possible d'appliquer un filtrage anisotropique. Lorsque 
la calibration des cameras est connue, on peut egalement envisager d'approcher les points 
reconstruits connus par un modele de surface 3D continu. Le modele mathematique donne 
alors une valeur de disparite interpolee pour les points manquants. 



5.4 Conclusion 

Dans ce chapitre, nous avons fait un etat de Tart des difi'erentes methodes permet- 
tant de mettre en correspondance deux images. Les principales methodes permettant de 
comparer les caracterisations presentees dans la premiere partie de cette these ont tout 
d'abord ete passees en revue. Nous nous sommes d'avantage interesses a la comparaison 
des vecteurs d'invariants difierentiels, puisque c'est cette approche, dans sa version cou- 
leur, que nous avons exploitee pour caracteriser les points d'interet. Dans ce cadre, la 
methode de comparaison la plus robuste est celle qui utilise la distance de Mahalanobis. 
Rappelons cependant qu'elle fait intervenir la matrice de covariance des composantes du 
vecteur, dont Testimation est empirique et relativement fastidieuse a mettre en oeuvre. 

Toujours dans le contexte des invariants difierentiels de Hilbert, si Ton veut considerer 
les changements d'echelle entre images, il est necessaire de mettre en place une approche 
multi-echelle pour les comparer. Si le facteur d'echelle est connu, alors un lissage gaussien 
adapte permettra de comparer les vecteurs a des echelles difi'erentes. S'il est inconnu, 
alors il faudra envisager de calculer les invariants a plusieurs niveaux d'echelle, ou alors, 
comme I'a recemment propose [Dufournaud et al., 2000], estimer ce facteur d'echelle a 
I'aide d'une methode RANSAC. Dans tous les cas, il est tres important de considerer 
egalement la detection des points d'interet dans un contexte multi-echelle. 



Vient ensuite I'etape delicate du seuillage des scores d'appariements obtenus (scores 
de correlations, intersections d'histogrammes ou encore distances). Nous avons explique 
qu'il n'est pas possible de se contenter simplement de selectionner les couples associes 
aux meilleurs scores. II est plus judicieux de mettre en oeuvre une fonction de seuillage, 
eliminant ainsi les couples de points qui ont toutes les chances d'etre des faux apparie- 
ments. Les couples de points restants pouvant etre ambigus, c'est-a-dire pouvant etre im- 
pliques dans plusieurs appariements, il est necessaire d'utiliser d'autres types de contraintes 
permettant d'exhiber les bonnes mises en correspondance. Ces contraintes sont de na- 
ture geometrique. II y a bien sur la contrainte epipolaire, mais surtout les contraintes 
semi-locales exploitees par I'algorithme de relaxation. Get algorithme iteratif permet de 
"desambiguiser" les appariements en mettant en jeu des contraintes de voisinage. 

Une fois I'ensemble de mises en correspondance eparses obtenu, il est possible d'en- 
visager la mise en correspondance dense des deux images. Celle-ci requiert en efi'et la 
connaissance de la geometrie epipolaire pour etre realisable. Si elle n'est pas disponible, 
alors il s'agira de I'estimer a partir des appariements des points d'interet. 

Les techniques d'appariement qui viennent d'etre presentees donnent pour la plupart 
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des resultats de mise en correspondance interessants, dans la mesure oil le nombre de 
points d'interet mis en jeu n'est pas tres important. Pour des grands nombres de points, 
la mise en correspondance devient beaucoup trop lourde a mettre en oeuvre. Or il est 
pourtant souvent necessaire de travailler avec des grands ensembles de points; c'est le 
cas par exemple pour la reconstruction tridimensionnelle de la scene a partir d'images 
stereoscopiques. C'est pourquoi nous proposons dans le prochain chapitre une methode de 
mise en correspondance robuste pouvant s'appliquer sur de grands nombres de points, nous 
montrerons que cette approche permet d'obtenir des resultats d'appariements superieurs 
dans des temps de calcul beaucoup plus raisonnables. 
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Chapitre 6 

Une methode de raise en 
correspondance robuste 



Nous avons presente au chapitre 4 une nouvelle methode de caracterisation de points 
dHnteret. Ce chapitre se consacre en premier lieu a la mise en place d^une metrique permet- 
tant de V exploiter pour Vetape de la mise en correspondance. Des contraintes geometriques 
invariantes aux principales transformations de Vimage sont egalement introduites. Puis, 
nous presentons une methode de mise en correspondance robuste rendant efficace Vappa- 
riement d^un tres grand nombre de points. Le processus complet d^appariement est ensuite 
teste et compare aux approches traditionnelles. 
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6.1. La methode d^appariement IJ^l 

Dans le precedent chapitre, nous avons passe en revue les methodes de mise en 
correspondance existantes. Notre methode de caracterisation consiste a utiliser 
les invariants differentiels couleur presentes au chapitre 4. Nous avons vu que le 
vecteur d'invariants obtenu est traditionnellement compare avec la distance de Mahalano- 
bis. Cette grandeur est la plus rigoureuse, mais est generalement difficile a estimer. C'est 
pourquoi nous presentons a la section 6.1 la methode d'appariement que nous avons mise 
en place pour comparer deux vecteurs d'invariants. A cette methode, s'ajoutent Tetape 
de la relaxation. Nous presentons egalement les contraintes semi-locales geometriques que 
nous utilisons. 

Malheureusement, comme pour les methodes classiques de mise ne correspondance, 
notre approche s'avere posseder une trop grande complexite pour gerer efficacement les 
grands nombres de points. C'est pourquoi nous proposons a la section 6.2 un algorithme 
incremental de mise en correspondance. II consiste a realiser I'appariement par iterations, 
en ajoutant au fur et a mesure des iterations des points a apparier. Ces travaux ont fait 
I'objet d'une publication [Gouet et al., 1998a]. 

La methode complete de mise en correspondance est ensuite evaluee a la section 6.3. 
L'algorithme de base, presente dans la premiere section, est d'abord evalue face aux prin- 
cipales transformations de I'image, permettant ainsi de tester la robustesse de notre ca- 
racterisation basee sur les invariants difierentiels couleur. Enfin le processus incremental 
est etudie puis valide sur de grands ensembles de points. II est compare a la version non 
incremental correspondante. Nous verrons que les resultats obtenus en I'utilisant sont net- 
tement superieurs, qu'il s'agisse des taux d'appariements corrects obtenus ou des temps 
de calcul. 



6.1 La methode d'appariement 

6.1.1 Comparaison des vecteurs 

Nous avons vu a la section 5.1.4 du chapitre 5 comment il etait possible de comparer 
deux vecteurs d'invariants. La methode la plus robuste est sans aucun doute la distance de 
Mahalanobis (cf. 5.1.4.2). EUe est cependant tres difficile a estimer. Nous avons done uti- 
lise une methode intermediaire, beaucoup plus simple et qui fournit pourtant d'excellents 
resultats, comme nous le verrons plus loin. Comme chaque composante du vecteur d'inva- 
riants est defini dans un intervalle specifique, il n'est pas possible d'appliquer directement 
la norme euclidienne pour realiser la comparaison. C'est pourquoi nous normalisons chaque 
composante du vecteur dans un intervalle fixe, a partir des extrema de la distribution de 
la composante issue des vecteurs des deux images. Ce changement de base simplifie est 
envisageable dans la mesure ou le vecteur d'invariants n'implique que des derivees gaus- 
siennes d'ordre un, et est par consequent robuste au bruit. On calcule ensuite une norme 
euclidienne entre les deux vecteurs normalises. Les distances obtenues sont seuillees pour 
ne garder que les couples de points susceptibles de correspondre a des appariements cor- 
rects. Enfin, nous employons un algorithme de relaxation (cf. section 5.2.2) pour eliminer 
les ambiguites dans les appariements restants. Les contraintes semi-locales de voisinage et 
geometriques utilisees sont detaillees a la prochaine section. 
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6.1.2 Contraintes semi- locales de relaxation 

Idealement si les invariants utilises pour decrire les points etaient completement discri- 
minants, seul le critere mis en place ci-dessus serait sufEsant et permettrait Tappariement 
des points. Mais ce n'est pas le cas et une image pent comporter de nombreux points ayant 
une caracterisation similaire. De plus, Finconvenient de Talgorithme d'appariement em- 
ploye est qu'il pent generer un ensemble de couples non coherent dans le sens ou un point 
pent etre implique dans plusieurs correspondances de points. Nous utilisons un algorithme 
de relaxation pour eliminer les correspondances ambigues de cet ensemble de correspon- 
dances potentielles. II s'agit done de definir en premier lieu un critere de relaxation, Tetape 
de la relaxation consistant a le minimiser. 

6.1.2.1 Le critere de relaxation 

Le critere de relaxation est defini pour un ensemble £ de correspondances de points. A 
chacun des couples potentiels (mi, 7712) de £ ou mi appartient a la premiere image et m2 
a la seconde, on associe un score de relaxation <SAt(mi,m2) qui est toujours positif et qui 
mesure la force de Tagencement (mi,m2). Le critere de relaxation note C est done defini 
comme la somme des scores de relaxation de toutes les correspondances de points de £ : 

C{£)= Yl SM{mii,m2j) (6.1) 

Ainsi minimiser ce critere revient a choisir Tensemble des bonnes correspondances de 
points. 

6.1.2.2 Le score de relaxation 

Un moyen de diminuer le risque d'avoir des ambiguites est de filtrer les mises en cor- 
respondance en ajoutant des contraintes semi-locales de coherence basees sur le voisinage 
d'un point, ainsi que des contraintes geometriques. 

La contrainte de voisinage 

Comme dans [Zhang et al., 1995b; Schmid, 1996], nous partons du principe qu'une 
paire de points (mi,m2) est un bon appariement si dans le voisinage V(mi) de mi on 
trouve un assez grand nombre de points bien apparies avec des points du voisinage V(m2) 
de m2. Cette idee est illustree par la figure 6.1. 

Les contraintes geometriques 

Nous imposons egalement a ces points voisins des contraintes de nature geometrique. 
Ces contraintes vont dependre de la nature des transformations reliant les deux images. 
La methode de description basee sur les invariants difi'erentiels couleur que nous avons 
presentee est invariante au groupe des similitudes, c'est-a-dire a la rotation et aux chan- 
gements d'echelle. II faut done mettre en place des contraintes geometriques qui tiennent 
compte de ces degres de liberte. 
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Voisinage de iiii/m2 




Image 1 



Image 2 



Figure 6.1 - Contrainte de voisinage relative au couple de points {mi^m^)- 

Notre methode consiste a utiliser, en plus du nombre de points bien apparies entre les 
deux voisinages V(mi) et V(m2), la conservation des angles entre les points voisins. Dans 
[Schmid, 1996], Schmid propose de tenir compte de Tangle defini par les deux voisins du 
point considere. Get angle doit etre globalement constant pour toutes les vues de ce point. 
Nous avons, quant a nous, mis en place une contrainte angulaire basee sur le gradient 
multi-spectral des points consideres. Cette contrainte a une complexite moins importante 
que celle utilisee par Schmid, car elle ne considere ici qu'un seul voisin a la fois. Comme 
rillustre la figure 6.2, Tangle entre le gradient du point etudie et celui des voisins doit etre 
constant d'une vue a Tautre. Une telle conservation est verifiee dans le cas des similitudes 
entre images. 




Figure 6.2 - Contrainte geometrique angulaire entre le gradient du point considere mu et 
celui de son voisin rriik- 



Cette contrainte est alors exprimee pour le couple {mn^m^j) par le score de relaxation 
note SM suivant : 



SM {mii , m2j ) = Cij ^ 

mikeV(mu) 



max P{mii, m2j',mik,m2i) 



(6.2) 



avec 



- P{mii,m2j;mik,m2i) = Cki.a{mii,m2j;mik,m2i) ; 

- Cij et Cki : scores d'appariement de respectivement {mii^m2j) et {mik-)m2i) calcules 
a Tetape precedente (par comparaison des vecteurs d'invariants) et positifs ; 
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- a{mii,m2j;mik,m2i) = /(|an^/e(GrnH, GmiJ-a^5'^e(Grn2^., Gr^aJI), G^n representant 
le gradient au point m ; 

- f{x) = ^f^ si j: < ^a 6t sinon; 

La force ainsi calculee n'est pas symetrique : plusieurs couples de points {miki^mik2) 
de V{mii) peuvent avoir un poids P maximum pour le meme couple de points {m2i^ , ^2/2) 
de V(m2j). Dans ce cas, le calcul symetrique ne donnerait pas les memes resultats. Notre 
algorithme rend le calcul symetrique en ne prenant en compte que le couple {miki^mik2) 
associe au poids maximum calcule le plus grand. Le gradient multi-spectral est calcule 
selon la methode developpee a la section 1.3.1.1 du chapitre 1. 



6.1.2.3 L'algorithme de relaxation 

La minimisation du critere de relaxation C est faite de fagon iterative. On calcule 
d'abord le critere de relaxation C{£) k partir de Tensemble des couples de points produit 
a Tetape de la mise en correspondance. Puis a chaque iteration, on selectionne les couples 
de points pour lesquels le score de relaxation SM est superieur a celui des couples dont 
un des deux points est implique dans le couple etudie. Ces derniers couples sont alors 
elimines de £. On recalcule ensuite C{£) et on reitere jusqu'a ce que C{£) ne decroit plus. 
L 'algorithme pent etre resume en 6.1 : 

Repeter 

Pour chaque couple (miQ,, 777-2/3) ^ £ Faire 
Selectionner {mia^m2/3) ; 

Pour chaque couple {mia^m2j) G £ tel que j ^ p Faire 
|_ Si <5-M(777iq;, 7772/3) < <5At(777iQ;,7772j) Alors Deselectionner (77710,, 7772/3); 
Si (7771Q;, 7772/3) ^^t selectionne Alors 

Pour chaque couple (7771^,7772/3) G £ tel que i ^ a Faire 
|_ Si 5-M(777iq;, 7772/3) < <5 At (777 1^,7772/3) Alors Deselectionner (7771^,7772/3); 

Eliminer de £ les couples non selectionnes ; 
Calculer C{£) ; 
Tant que C{£) decroit^ 

Algorithme 6.1 - Le processus de relaxation. 

En sortie, Tensemble £ contient des correspondances de points coherentes. Le processus 
iteratif est arrete des qu'on ne pent plus selectionner de couples c'est-a-dire lorsque C{£) 
ne decroit plus. II converge obligatoirement puisqu'a chaque iteration, au moins un couple 
de points est ote de £ dont la dimension est finie. 

6.1.2.4 Le degre d'ambiguite 

Le calcul du score de relaxation SM n'elimine pas entierement la notion d'ambiguite 
d'une correspondance de points. En effet, un couple est selectionne des que sa force d'agen- 
cement est la plus importante parmi celles des autres couples engendres par les points 
impliques; cependant cette selection pent s'averer ambigue si cette force est tout juste 
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superieure aux autres. On a done choisi de definir pour chaque couple de points selectionne 
un degre d'ambiguite note UA et compris entre et 1 tel que : 

SM{mii^m2k) et SM{mii^m2j) representent les forces d'agencement des couples im- 
pliquant mu et m2j et immediatement inferieures a SM{mii^m2j). Plus formellement : 

f 3k^ j / SM{mii,m2k) > SM{mii,m2k') VA:' ^ kj. .^ ^. 

1 31 ^ i / SM{mii,m2j) > SM{mii',m2j) V/' / /,i. 

Le couple {mii^m2j) selectionne est non ambigu si sa force SM{mii^m2j) est tres 
superieure a celles des couples impliquant mu et m2j. Dans ce cas, UA{mii^m2j) est 
proche de 1. Le processus de relaxation est done modifie afin de prendre en compte le 
critere d'ambiguite : pour etre retenu, un agencement de points selectionne doit avoir un 
degre d'ambiguite suffisamment fort. Dans la pratique, a chaque iteration on trie les forces 
d'agencement et les degres d'ambiguite de chaque couple par ordre decroissant et on ne 
selectionne que les couples qui possedent les meilleurs scores SM et UA. Pour plus de 
details, consulter [Zhang et al., 1995b]. 



6.1.2.5 Elimination des faux appariements 

A Tissue de la relaxation, un ensemble de mises en correspondances non ambigues est 
obtenu. Nous estimons alors la geometrie epipolaire a partir de ces appariements, en utili- 
sant une methode robuste de type LMedS (presentee a la section 7.6.1.3 du chapitre 7) qui 
met en oeuvre des criteres adequats visant a minimiser les distances des points aux droites 
epipolaires. Cette methode permet de mettre en place une ultime phase d'elimination des 
faux appariements pouvant subsister, c'est-a-dire ceux qui ne respectent pas la contrainte 
epipolaire. 

6.1.3 Limites de la methode 

Le principal inconvenient de la methode de mise en correspondance qui vient d'etre 
presentee est en premier lieu sa complexite. Si aucune information de disparite n'est dis- 
ponible entre les deux images (c'est le cas lorsque les cameras ne sont pas calibrees), alors 
pour m points dans la premiere image et n dans la seconde, la methode de comparaison 
seule a une complexite en 0(m x n) ; pour la relaxation, elle est en 0{w?' x in?) dans la 
pire des configurations. En consequence, un autre inconvenient est le nombre de couples 
ambigus resultants, qui augmente avec le nombre de points a apparier. Cela rend I'algo- 
rithme de relaxation plus couteux en temps de calcul et finalement pent generer un plus 
grand nombre de mauvais appariements. En resume, le processus d'appariement decrit 
precedemment est efficace jusqu'a 200 ou 300 points mais devient rapidement inutilisable 
au dela. II est pourtant souvent necessaire de mettre en correspondance un tres grand 
nombre de points pour realiser des cartes de profondeur denses entre deux images. Nous 
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proposons dans la section suivante une solution pour ameliorer les resultats de mise en 
correspondance sur de grands nombres de points. 

6.2 Un algorithme de mise en correspondance incremental 

Notre approche [Gouet et al., 1998a] consiste a utiliser des contraintes geometriques qui 
permettront de localiser les points a apparier beaucoup plus precisement. Si la disparite 
entre les images n'est pas connue, nous devons trouver cette zone nous-memes. Supposons 
que nous ayons a notre disposition un ensemble M d'appariements corrects entre les deux 
images. Nous montrons alors dans la section suivante comment cette donnee nous fournit 
des informations sur la zone recherchee. 

6.2.1 L'information geometrique disponible 

Nous presentons dans cette section deux types de contraintes geometriques. EUes vont 
nous permettre de reduire considerablement la zone de recherche du correspondant d'un 
point dans Tautre image. Les contraintes mises en place ici sont invariantes aux principales 
transformations de Timage. 

6.2.1.1 La geometrie epipolaire 

Si M contient au moins sept appariements, alors il est possible d'estimer la geometrie 
epipolaire du systeme des deux cameras (on obtient trois solutions avec sept appariements 
et une solution unique pour un nombre superieur, cf. section 7.6.1 du chapitre 7). Celle-ci 
est caracterisee par une matrice fondamentale i^(3x3) qui verifie m^ Fmi — pour deux 
points apparies mi et m^. Cette equation traduit le fait que le point m^ dans la seconde 
image est situe sur la droite epipolaire Fmi et reciproquement que le point mi de la 
premiere image est situe sur la droite F^ m2. Des Tinstant oil F est connue, il est facile 
de voir que la complexite de la methode d'appariement est reduite, puisque la zone de 
recherche du point devient une droite. Dans la suite, la matrice fondamentale estimee a 
partir de I'ensemble de mises en correspondances M sera note Fm- 

6.2.1.2 La triangulation de Delaunay 

Dans cette section, nous definissons une contrainte de semi-planarite locale, basee sur 
la triangulation de Delaunay. 

Considerons un point tridimensionnel P appartenant a un triangle T, {pi^P2) ses pro- 
jections sur deux images et (^1,^2) les projections du triangle. II est facile de montrer 
qu'un triangle est transforme en un triangle par transformation projective, ainsi ti et ^2 
sont egalement des triangles. Le point pi est necessairement situe dans le triangle ti et 
a necessairement son correspondant p2 dans ^2- Si P n'appartient pas a T, la position 
de p2 relativement a ^2 est fonction de la disparite. L 'experience a montre qu'il suffit 
de considerer ^2 et ses plus proches triangles voisins. Ainsi la disparite est inversement 
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proportionnelle au nombre de points qui peuvent etre apparies et done proportionnelle a 
Taire des triangles traites. C'est la raison pour laquelle la combinaison de ^2 avec ses plus 
proches voisins represente une zone qui toutes les chances de contenir p^. 

Nous venons done de definir une zone de Fimage qui contient le correspondant p2 
d'un point pi. La triangulation est calculee sur la premiere image, puis "appliquee" sur 
la deuxieme a partir des mises en correspondance : un triangle de la seconde image doit 
avoir ses trois sommets apparies avec les sommets d'un meme triangle dans la premiere 
image. Nous avons opte pour une triangulation de Delaunay en ce qui concerne la premiere 
image, parce qu'elle produit des triangles les plus equi-angulaires possibles [Boissonnat et 
Teillaud, 1986]. La deuxieme triangulation engendree dans Tautre image n'est alors pas 
obligatoirement une triangulation de Delaunay. Nous noterons Tm l^s deux triangulations 
construites a partir des appariements M. 

En combinant les deux contraintes geometriques presentees ci-dessus, la recherche d'un 
correspondant dans une image est reduite a un segment, si le point etudie appartient a un 
triangle de la triangulation de Delaunay. Si ce n'est pas le cas, alors la recherche est reduite 
a un ensemble de segments, voire au pire la droite epipolaire entiere. La figure 6.3 illustre 
cette idee : {a^a^)^ {b^b') et {c^c') representent des appariements. Un point m de I'image 1 
situe dans le triangle (a, &, c) a son correspondant dans I'image 2 sur la droite epipolaire 
F.m et dans le triangle (a', &', c'). Reciproquement, le point m' a son correspondant sur la 
droite F^ .m! et dans le triangle {a^h^c). 
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Figure 6.3 - Mise en correspondance a Vaide des contraintes geometriques. 

Ces nouvelles contraintes geometriques permettent de reduire I'espace de recherche du 
point a apparier et ce, quelles que soient les images. EUes vont alors etre integrees dans 
notre processus incremental de mise en correspondance. Ce processus est presente a la 
section suivante. 



6.2.2 L'algorithme incremental de mise en correspondance 



Les contraintes presentees ci-dessus supposent que nous ayons a notre disposition un 
ensemble de points apparies pour initialiser le nouveau processus d'appariement. En efiet, 
notre approche consiste a mettre en place une methode d'appariement incremental qui 
calcule a I'iteration i un ensemble d'appariements M'^ a partir des contraintes geometriques 
associees aux appariements At^~^ de I'iteration i—1. L'algorithme pent alors etre decompose 
en 6 etapes resumees en 6.2 [Gouet et al., 1998a]. 
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Repeter 

• Extraire (ou ajouter) les points d'interet dans les deux images. On obtient les 
ensembles de points Vl et V2 ; 

• Caracteriser chacun des points a Taide du vecteur caracteristique Vcoi (cf. 
equation 4.2) ; 

• Pour chaque point pik E VI et p2i G P27 estimer la zone de recherche dans 
Tautre image, a partir des contraintes geometriques i^A<^-l ^t Tmi-i si elles existent. 
On obtient Aik et A21 ; 

• Comparer les vecteurs caracteristiques de pik et p2i qui verifient : pik G A21 
et P21 G Aik' L'ensemble d'appariements M.\ avec de possibles ambiguites est 
obtenu ; 

• Eliminer les appariements ambigus de M.\ par la relaxation (cf. section 
6.1.2). On obtient l'ensemble d'appariements M^ sans ambiguites; 

• Calculer les contraintes geometriques : la triangulation Tm^ et la matrice 
fondamentale Fj^i associee aux appariements M!^ ; 

Tant que M^ n^est pas assez grand; 

Algorithme 6.2 - Mise en correspondance incrementale. 



Etant donne que les appariements M^ sont calcules a partir de ceux obtenus a I'iteration 
i — 1, il est tres important d'obtenir le plus grand nombre de bons appariements a 
chaque iteration. Cette condition est verifiee la plupart du temps parce que les contraintes 
geometriques permettent d'eliminer la majeure partie des appariements incorrects. En ef- 
fet, les points qui ne verifient pas la contrainte epipolaire sont elimines et I'experience 
a montre que la plupart des points restants incorrects sont eux aussi isoles grace a la 
contrainte de triangulation, ce que ne font generalement pas les approches classiques de 
mise en correspondance. II est interessant de remarquer que la taille des zones de recherche 
(des segments) diminue au fur et a mesure des iterations. Ainsi le processus d'appariement 
gagne en temps de calcul et voit les ambiguites diminuer a chaque iteration. 

La principale difficulte de notre approche reside dans I'estimation du premier ensemble 
M^ pour lequel aucune contrainte geometrique n'est disponible. Ces appariements doivent 
pourtant etre de tres bonne qualite puisqu'ils permettent d'initialiser tout le processus 
incremental. Notre solution consiste a estimer une matrice fondamentale Fj^o de maniere 
robuste a la fin de la relaxation et dans un premier temps d'eliminer tous les appariements 
qui ne sont pas consistants avec Fj^o. Puis les faux appariements restants sont elimines 
en ne gardant qu'un faible pourcentage des meilleurs appariements (ceux qui possedent 
le meilleur score de relaxation. L 'experience a montre que retenir uniquement 40% des 
appariements permettait d'obtenir une excellente base pour les iterations suivantes. Notons 
que la contrainte Fj^o peut etre re-estimee a partir de ces nouveaux appariements avant 
d'envisager la premiere iteration. 
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6.3 Evaluation de la methode 

II est bien sur possible d'evaluer visuellement les resultats de notre methode de mise 
en correspondance. Cependant, comme pour les detecteurs de points d'interet, il nous 
a semble plus judicieux de mettre en oeuvre une methode d'evaluation quantitative et 
automatique. Nous allons voir dans la section suivante que plusieurs possibilites s'offrent 
a nous, selon le type de scene tridimensionnelle consideree. 

6.3.1 Les methodes d'evaluation automatique 

Lorsque le changement de point de vue d'une image a Tautre est quelconque, il n'existe 
pas de relation directe entre deux projections d'un point de la scene tridimensionnelle. II est 
cependant possible d'etablir une relation particuliere, une transformation homographique, 
lorsque la scene est plane. La technique employee est developpee dans la prochaine section. 
Nous presenterons egalement a la section 6.3.1.2 une methode plus generale basee sur la 
geometrie epipolaire. 

6.3.1.1 Cas de scenes planes 

Si les deux images sont issues d'une scene plane, alors tous les appariements (mi,m2) 
doivent etre en correspondance homographique (cf. section 7.3.3 du chapitre 7). lis doivent 
done verifier : 

1712 = Hi2.mi (6.5) 

Une methode pour evaluer la qualite de la mise en correspondance consiste done a 
calculer les distances entre les points et leurs correspondants ideaux selon H12. Soit dij 
Terreur calculee, en terme de distance, pour le couple de points apparies (mi^, m2j) et telle 
que : 

dist{Hi2.mii,m2j) + dist{mii, H2i.m2j) 
2 



_ ut^Lyj.ii2.niu^ in2j) T ui^uyinii^ 1121 -1112 j ) . . 



oil dist{mi^m2) represente la distance euclidienne entre les deux points mi et 7712- La 
mesure de repetabilite mise en place pour evaluer les detecteurs de points d'interet integrait 
la distribution des distances afin de tenir compte de la precision de la detection. La notion 
de precision n'etant pas necessaire ici, nous definissons un critere d'evaluation des mises en 
correspondance qui se contente de comptabiliser le nombre de points correctement apparies 
selon la contrainte homographique. On obtient le critere A4 suivant : 

A4 = \{{mii,m2j) I dij < e}\ (6.7) 

oil e represente la taille du voisinage dans lequel on s'autorise a chercher le correspon- 
dant du point etudie. II est en efi'et bien sur impossible de ne considerer que les couples 
de points associes a des distances nuUes, les points detectes etant une approximation de 
la realite. Comme pour la mesure de repetabilite, le choix d'une valeur pour ce parametre 
pent etre guide par I'equation 2.7, selon la precision sub-pixellique envisagee. 
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Toute la difficulte de cette methode d'evaluation reside dans le calcul de H^. II est pos- 
sible de Testimer directement a partir des appariements trouves, a Taide d'une technique 
de moindres carres medians. La methode pent cependant s'averer biaisee si les apparie- 
ments ne sont pas precis dans une proportion suffisamment significative, puisqu'elle se 
sert des appariements pour etablir un critere permettant justement de les evaluer. Cer- 
tains auteurs, comme [Brand, 1995; Schmid, 1996], preferent done s'appuyer sur des cibles 
circulaires tres precisement appariees dans les images et verifiees manuellement. 

6.3.1.2 Cas de scenes quelconques 

Si la scene est quelconque, alors le seul lien geometrique existant entre deux points 
apparies est la geometrie epipolaire, decrite par la matrice fondamentale F^. Un appa- 
riement {mi^m2) peut etre considere comme correct si le point 7712 appartient a la droite 
epipolaire correspondant au point mi. Comme pour Fhomographie, on obtient la distance 

suivante : 

, dist{Fi2.mii = 0,m2j) + dist{F2i.m2j = O.mu) 
d^j (b.«j 

oil dist{d^m) represente cette fois la distance euclidienne entre la droite d et le point 
m. Comme pour Thomographie, on obtient la mesure J\f's suivante : 

^'e-\{{mu,m2j) / d,j<s}\ (6.9) 

Dans ce cas, e permet de traduire Tappartenance ou la non appartenance dans Tautre 
image du correspond du point etudie a la droite epipolaire associee. 

Une telle evaluation n'est pas exempte d'erreur puisque deux points d'un appariement 
faux peuvent verifier la contrainte epipolaire. Cependant la probabilite d'un tel evenement 
est suffisamment faible pour que cet estimateur fournisse une bonne evaluation du nombre 
d'appariements corrects. Comme avec Thomographie, il est possible d'utiliser une methode 
robuste pour estimer la matrice fondamentale F12. Mais Festimation s'avere encore plus 
biaisee, car le calcul de F12 est encore plus sensible a la precision des appariements. 

6.3.2 Cadre de revaluation 

Dans la section suivante, nous allons evaluer la methode de mise en correspondance qui 
vient d'etre presentee. Les points d'interet utilises sont les points de Harris Precis Couleur 
calcules en precision demi-pixel [Montesinos et Dattenny, 1997] avec comme parametres 
du lissage gaussien a = 1 et a = 2. Pour le seuillage par maxima locaux, le diametre de 
la fenetre est de 15 et la valeur du seuil varie en fonction de I'image, de fagon a obtenir 
approximativement le meme nombre de points dans les deux images. Les points extraits 
sont ensuite caracterises par le vecteur d'invariants differentiels couleur Vcoh calcule a I'aide 
des derivees d'ordre un avec un parametre de lissage gaussien plus important (a = 3) pour 
minimiser le bruit. Les images sont normalisees face aux changements d'illumination selon 
la methode introduite a la section 4.3 du chapitre 4. La methode d'appariement est celle 
qui a ete detaillee a la section 6.1. EUe est integree ou non, selon le cas, dans le processus 
de mise en correspondance incremental presente a la section 6.2. 
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La robustesse de la mise en correspondance est evaluee par rapport aux principales 
transformations de Timage, c'est-a-dire par rapport aux translations, aux rotations 2D, aux 
changements d'illumination, aux changements d'echelle et aux changements de point de 
vue. Nous avons tout d'abord utilise la methode d'evaluation presentee a la section 6.3.1.1 
et basee sur Testimation d'une homographie. Les scenes utilisees sont done des scenes 
planes. Nous avons travaille a partir des memes scenes synthetiques bruitees que celles 
utilisees pour evaluer la repetabilite des detecteurs de points au chapitre 2. La methode 
permettant Testimation de Thomographie est similaire a celle developpee a la section 2.1.4 
du meme chapitre. On obtient ainsi une homographie que Ton pent qualifier d'exacte. Puis 
nous avons considere le cas de scenes quelconques pour evaluer le processus complet de 
mise en correspondance sur de grands ensembles de points. La technique d'evaluation est 
done celle developpee a la section 6.3.1.2. 

6.3.3 Resultats 

Nous presentons ici deux types de resultats : 

- En premier lieu, les resultats de revaluation du processus d'appariement des points 
d'interet face aux quatre principales transformations de I'image (rotation, change- 
ment d'illumination, changement d'echelle et changement de point de vue). Seul 
I'algorithme de base (cf. 6.1) est utilise sur un nombre de points raisonnable. Les 
resultats sont presentes sous forme de graphe, mettant en evidence le nombre d'ap- 
pariements qui auraient dus etre trouves (les appariements efi'ectifs), le nombre d'ap- 
pariements trouves et le nombre d'appariements corrects A4 selon la contrainte ho- 
mographique (cf. equation 6.7). Dans tous les cas, la valeur du seuil de repetabilite s 
est fixe a 2, sachant que la detection des points est realisee en precision demi-pixel. 
Cette etude fait I'objet des quatre prochaines sections. 

- C'est ensuite le processus de mise en correspondance complet, incluant done I'algo- 
rithme incremental, qui est teste. Les images proviennent d'une scene non plane et 
difierent a la fois en point de vue et en illumination (ce dernier etant naturel et done 
de nature inconnue). Les resultats sont compares avec ceux obtenus avec la methode 
d'appariement de base et sont presentes sous forme de tableaux. On constate une 
nette amelioration, tant dans la qualite des mises en correspondance obtenues que 
dans les temps de calcul. Cette etude fait I'objet de la section 6.3.3.5. 

Dans tous les cas, les pourcentages d'appariements corrects que nous serons amenes a 
presenter sont calcules par rapport au nombre d'appariements efi'ectifs. 



6.3.3.1 Rotation image 

La figure 6.4 presente les resultats de mise en correspondance sur I'image "Lezard" qui 
a ete soumise a 6 rotations dans le plan image. Un bruit gaussien a ete ajoute pour plus de 
realisme. Quelques unes des images obtenues sont visibles sur la premiere ligne de la figure. 
Les resultats de mise en correspondance sont excellents pour ce type de transformation. Le 
taux d'appariements le plus faible est en efi'et de 92% et a ete obtenu pour la rotation de 
150°. Au contraire, c'est avec la rotation de 90° que les resultats sont les meilleurs, avec une 
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seule erreur d'appariements (278 points etaient a apparies et 277 I'ont ete correctement). 
Ces resultats montrent la robustesse du vecteur d'invariants Vcoi face a une rotation image 
quelconque. 
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Figure 6.4 - Sequence ^'Lezard'^ : Resultats d^appariement face a 6 rotations image. 



6.3.3.2 Changement d'illumination 



Dans cette section, la figure 6.5 montre les resultats de mise en correspondance sur 
rimage "Lezard" qui a ete soumise a 9 changements d'illumination interne. Ces transfor- 
mations ont ete realisees synthetiquement selon le modele diagonal avec translation qui 
a ete presente a la section 4.3.1 du chapitre 3. Un bruit gaussien a ete ajoute. Quelques 
unes des images obtenues sont presentees sur la premiere ligne de la figure. Les 9 mises 
en correspondance ont ete realisees en prenant Timage n°0 (encadree en gras sur la fi- 
gure) comme premiere image du couple. EUes ont ete realisees avant d'avoir normalise les 
images, puis apres normalisation. Celle-ci a ete realisee localement, a Taide d'une fenetre de 
normalisation de diametre 21 pixels (les images utilisees ont pour dimension (400 x 400)). 
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Figure 6.5 - Sequence ^'Lezard'^ : Resultats d^appariement face a 9 changements dHUumi- 
nation interne (avant et apres normalisation des images). 
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Les resultats obtenus montrent clairement Tinteret de normaliser les images avant de 
les mettre en correspondance. Sans pre-traitement, la moyenne des taux d'appariements 
est autour de 50% de points correctement apparies. En revanche, apres normalisation, ce 
taux avoisine les 92% pour tous les changements traites. 



6.3.3.3 Changement d'echelle 

Nous avons utilise ici les images ainsi que les points Harris Couleur qui ont servi a la 
mesure de la repetabilite des detecteurs de points d'interet face au changement d'echelle 
(cf. section 2.2.2.3 du chapitre 2). La camera virtuelle a subi 9 translations selon son axe 
optique, en s'eloignant de la facette photographiee. Quelques unes des vues sont presentees 
sur la premiere ligne de la figure 6.6. C'est la derniere vue (la n°9) qui a servi de reference 
pour toutes les mises en correspondance. 
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Figure 6.6 - Sequence ^'Lezard^^ : Resultats d^appariement face a 9 changements d'echelle. 



Comme on pent le voir sur le graphe de la figure, le processus de mise en corres- 
pondance est tres sensible aux changements d'echelle. On constate en premier lieu que le 
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nombre d'appariements qui doivent etre trouves est faible par rapport au nombre de points 
detectes, ce qui s'expliquent par le fait que la partie commune entre les couples d'images a 
apparier se retrouve relativement reduite. En ce qui concerne les appariements trouves, on 
obtient un taux d'a peine 60% d'appariements corrects pour le dernier couple d'images, 
qui est associe au changement d'echelle le plus faible (le facteur d'echelle est de 2 dans ce 
cas). Ces mauvais resultats sont a attribuer au fait que le detecteur et la caracterisation a 
base d'invariants sont peu robustes aux changements d'echelle (consulter respectivement 
les mesures de repetabilite de la figure 2.11 au chapitre 2 et la section 3.2.1.4 du chapitre 
3). II est necessaire d'integrer leur calcul dans un contexte multi-echelle, comme le propose 
[Dufournaud et al., 2000]. La methode a ete presentee a la section 5.1.4.3 du chapitre 5. 
Remarquons pour finir qu'en ce qui concerne les changements d'echelle plus importants, le 
taux d'appariements corrects est d'environ 40% ; quelques appariements ont tout de meme 
pu etre formes, essentiellement grace a I'etape de la relaxation pour laquelle les contraintes 
de voisinage et d'angles sont robustes a ce type de transformation (cf. section 6.1.2). 

6.3.3.4 Changement de point de vue 

La sequence d'images utilisee est la meme qu'a la section 2.2.2.4 du chapitre 2. La 
camera virtuelle a ete deplacee 9 fois selon une rotation autour de la facette, en veillant 
a viser approximativement son centre de fagon a en voir la plus grande partie. Le lecteur 
pent voir quelques exemples des images obtenues sur la premiere ligne de la figure 6.7. 
C'est la premiere image (image encadree en gras) representee qui a ete appariee aux 9 
autres vues de la sequence. Exactement 450 points ont ete detectes dans toutes les images. 

On constate sur le graphe que les resultats se degradent plus Tangle entre les deux 
cameras augmente. Les meilleurs scores sont obtenus avec I'image n°5, avec approxima- 
tivement 93% d'appariements corrects. C'est pour I'image la plus eloignee de I'image de 
reference (la n°9), que Ton obtient le moins bon pourcentage : 86%. 
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Figure 6.7 - Sequence ^'Lezard'^ : Resultats d^appariement face a 9 changements de point 
de vue. 
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6.3.3.5 Evaluation du processus incremental 



Dans cette section, les images testees proviennent d'une scene tridimensionnelle non 
plane. Le critere d'evaluation utilise est done celui base sur la contrainte epipolaire (cf. 
equation 6.9). Nous etudions les d'appariements corrects obtenus a Tissue de la mise en 
correspondance. II s'agit done des appariements qui sont en correspondance epipolaire, 
c'est-a-dire les points dont le correspondant est dans le pire des cas a la distance e de 
la droite epipolaire associee. La valeur pour s est fixee a 3 dans toutes les experiences, 
sachant que la detection des points, la mise en correspondance et Testimation de la matrice 
fondamentale sont realisees en precision demi-pixel. 

L'appariement est d'abord realise sans puis avec Talgorithme incremental, et les deux 
ensembles de resultats obtenus sont compares. Lorsque celui-ci est utilise, la matrice fon- 
damentale est estimee a Faide d'une methode lineaire robuste (cf. section 7.6.1 du chapitre 
7). La geometrie epipolaire ainsi estimee n'a pas besoin d'etre exacte, puisqu'elle n'est uti- 
lisee que pour eliminer les couples de points qui ne sont pas en correspondance epipolaire. 
Comme la methode d'estimation est lineaire, elle peut-etre implementee efficacement tout 
en fournissant une geometrie tres precise loin des epipoles. La triangulation de la premiere 
image est une triangulation de Delaunay semi-dynamique [Boissonnat et Teillaud, 1986]. 
Elle est implementee de maniere incremental, par insertion de points, pour etre le plus 
efficace possible avec I'algorithme de mise en correspondance : a I'iteration i, la nouvelle 
triangulation est calculee en inserant les points Vl issus de M'^ dans la triangulation Tm^ 
calculee a I'iteration precedente. 

Les figures 6.8 and 6.9 montrent les resultats de mise en correspondance de (220 x 231) 
points d'interet sur deux images aux points de vue et illumination difierents. La geometrie 
epipolaire superposee a ete estimee a partir de tous les appariements obtenus. La premiere 
figure presente les appariements (appeles M par la suite) obtenus a partir de I'algorithme 
de base, alors que la seconde montre les appariements (Mine) a I'issu du processus de mise 
en correspondance incremental. 

Comparons les resultats obtenus : 

- Temps de calcul : 90' ont ete necessaires pour calculer I'ensemble M. Seulement trois 
iteration et quelques minutes ont permis de calculer Mine- Ce net gain de temps 
provient essentiellement de la complexite devenue reduite lors de la comparaison des 
vecteurs d'invariants, puisque I'aire de recherche est plus limitee. Une autre raison 
est que le nombre de couples ambigus est beaucoup moins important au debut de la 
relaxation, qui par consequent est beaucoup plus rapide ; 

- Qualite des resultats : nous obtenons de meilleurs resultats avec la methode in- 
cremental (170 appariements tous corrects) qu'avec la methode de base (155 ap- 
pariements dont un tres petit nombre faux). Examinons les plus precisement : a 
la figure 6.8, la deuxieme droite epipolaire en part ant du haut sur chaque image 
est associee a l'appariement n°142 (sur le socle au second plan dans la scene). Get 
appariement est faux, mais peut etre elimine en utilisant la contrainte epipolaire. 
Cependant, considerons les memes points a la figure 6.9. Les appariements obtenus 
(n°29 et n°60) avec la methode incremental sont corrects. Get exemple demontre 
I'emploi de contraintes geometriques permet d'apparier plus de points. Considerons 
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Figure 6.8 - Images ^'Salle robotique'^ avec changements de point de vue et dHUumina- 
tion. 155 appariements ont ete trouves avec la methode de base. Les droites epipolaires 
superposees correspondent aux appariements {73,142,71,97,154}- 




Figure 6.9 - Images ^'Salle robotique'^ avec changements de point de vue et dHUumina- 
tion. 170 appariements ont ete trouves a Vaide de Valgorithme incremental. La geometric 
epipolaire finale Fj^2 superposee correspond aux appariements {161,29,60,147,170}. 
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maintenant les deux deuxiemes droites epipolaires en part ant du bas a la figure 6.8. 
EUes sont associees a Tappariement n°97 (sur le boitier de commande a droite de 
la chaise) qui verifie la contrainte epipolaire mais est incorrect. Sur Fautre figure, 
les memes points ont ete correctement apparies (appariement n°86 represente d'une 
autre couleur). Get autre exemple nous montre que la methode incrementale permet 
d'augmenter le taux d'appariements corrects. 

Detail des iterations 

La figure 6.10 montre les contraintes geometriques appliquees a la derniere iteration de 
Tappariement incremental sur deux images aux points de vue et illuminations difi'erents. 
367 et 269 points ont ete detectes dans les deux images et 164 points ont ete correctement 
apparies en trois iterations. Seulement 175 de ces points auraient pu etre apparies, les 
points de vue etant relativement difi'erents. Le taux d'appariements corrects est de 94%. 

Les informations geometriques superposees sur la premiere ligne de la figure sont la 
geometrie epipolaire Fj^i et sur la seconde, les triangulations Tm^- Ces deux resultats ont 
ete calcules a Tissue de Titeration 1 (deuxieme iteration) et ont ete utilises pour realiser 
Tappariement de la derniere iteration. Les calculs ont ete realises sur une station Sun 
Ultra 5, 333Mhz, avec 256Mo de memoire. Les points d'interet ont ete apparies en 100" 
approximativement. En comparaison, Talgorithme de base a mis 48' pour donner une 
solution avec un taux d'appariements incorrects superieur. 

Le lecteur pent consulter les tableaux 6.1 et 6.2 qui resument respectivement les pour- 
centages d'appariements corrects et les temps de calcul obtenus pour chaque iteration 
sur les trois premieres lignes du tableau, et les donnees correspondantes mais pour la 
methode de base non incrementale sur la derniere ligne. Signalons que le taux d'appa- 
riements corrects de la premiere iteration est volontairement faible (62%). Nous n'avons 
en efi'et conserve qu'un petit pourcentage (40%) des appariements formes verifiant la 
contrainte epipolaire, de maniere a avoir une tres forte probabilite que I'ensemble M^ 
obtenu comprenne des appariements tous corrects. On peut aussi remarquer que la duree 
de la relaxation diminue avec les iterations. Les aires de recherche sont en efi'et de plus en 
plus reduites lors de la phase d'appariement (il y a de plus en plus de triangles), reduisant 
ainsi a chaque fois le nombre d'appariements ambigus. Au contraire, dans la version non 
incrementale, la relaxation est beaucoup plus gourmande en temps de calcul (47'), le 
nombre d'appariements ambigus etant nettement plus important au debut du processus. 



Iteration 


Nombre 
de points 


Nombre d'appariements 


% 


Nombre 
de triangles 


effectife 


trouves 


corrects 





(125,109) 


58 


36 


36 


62% 


- 


1 


(211,151) 


83 


74 


72 


87% 


60 


2 


(367,269) 


175 


166 


164 


94% 


130 


- 


(367,269) 


175 


170 


156 


89% 


- 



Table 6.1 - Mise en correspondance de (367,269) points Harris couleur : resultats de mise 
en correspondance. Les trois premieres lignes correspondent aux trois iterations de Valgo- 
rithme incremental. La derniere ligne correspond a la methode de base non incrementale. 
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Figure 6.10 - Resultats d^appariements M^ sur deux images ^'Toys^^ avec changement 
de point de vue et dHllumination. Les droites epipolaires superposees correspondent aux 
appariements {70,107,144,117,140}. 
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Iteration 


Temps de calcul 


Points 


Appaxiement 


Relaxation 


Total 





15" 


5" 


23" 


43" 


1 


10" 


3" 


21" 


34" 


2 


7" 


2" 


14" 


23" 


- 


7" 


14" 


47' 


47'21" 



Table 6.2 - Mise en correspondance de (367,269) points Harris couleur : temps de calcul. 
Les trois premieres lignes correspondent aux trois iterations de Valgorithme incremental. 
La derniere ligne correspond a la methode de base non incremental. 



Exemple sur un tres grand nombre de points 

Les figures 6.11, 6.12 et 6.13 presentent des result at s de mise en correspondance sur 
deux images ayant des points de vue et illumination difierentes. 1170 et 1035 points Harris 
couleur ont ete extraits. La mise en correspondance a ete realisee de maniere incrementale 
et a permis d'obtenir 403 appariements. Malgre le grand nombre de points mis en jeu, 
seulement quelques minutes ont ete necessaire pour realiser Fappariement complet et le 
taux d'appariements corrects obtenu est de 95%. La derniere figure montre la geometrie 
epipolaire finale obtenue a Tissue des iterations. Cette fois, son estimation a ete realisee a 
Taide d'une methode non lineaire robuste de type LMedS (cf. section 7.6.1.3 du chapitre 
7) pour obtenir la plus geometrie exacte possible. 
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Figure 6.11 - (1170,1035) points dHnteret Harris Couleur extraits de deux images, avec 
changement de point de vue et dHUumination. 
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Figure 6.12 - Resultats de la mise en correspondance des points presentes a la figure 6.11. 
L^algorithme incremental a permis d^apparier 403 points. 
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Figure 6.13 - Geometrie epipolaire obtenue a partir des appariements presentes a la figure 
6.12. Les droites epipolaires tracees dans une image correspondent dans Vautre image aux 
quatre coins du toit de la grande maison, au sommet de la tente dans le haut de la scene 
et a un coin du panneau au premier plan. 



6.4- Conclusion 
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6.4 Conclusion 

Dans ce chapitre, nous avons presente et evalue une methode de mise en correspondance 
de points d'interet robuste. Nous avons en premier lieu developpe une methode permettant 
de comparer les vecteurs d'invariants couleur. Cette methode est en theorie sous-optimale 
par rapport a la distance de Mahalanobis traditionnellement utilisee, car elle n'integre 
pas un modele de bruit. Cependant elle a Favantage d'etre beaucoup plus facile a mettre 
en oeuvre, et de bien se comporter avec notre caracterisation dans la mesure oil celle-ci 
n'implique que des derivees de Fimage d'ordre un et est done peu bruitee. 

Ensuite un algorithme de relaxation base sur des contraintes semi-locales est utilise 
pour eliminer les ambiguites dans les appariements formes. Les contraintes que nous avons 
mises en place sont des contraintes de voisinage ainsi que des contraintes geometriques 
angulaires invariantes au groupe des similitudes. EUes permettent d'obtenir un ensemble de 
mises en correspondance consistant au travers des principales transformations de Fimage. 
Les tests realises a la section des resultats montrent que la methode se comporte tres bien 
face aux rotations, aux changements d'illumination et aux changements de point de vue, 
d'apres les taux d'appariements corrects obtenus (dont les extrema sont recapitules dans 
le tableau 6.3 ci-apres). Ceux-ci sont en effet pour la plupart superieurs a 90% pour ces 
transformations. Le taux de 86% obtenu pour les changements de point de vue n'est pas 
considere comme representatif, car il resulte d'un changement extreme (voir la vue n°9 de 
la figure 6.7). Ces resultats satisfaisants permettent egalement de valider la pertinence de 
la methode de caracterisation basee sur les invariants difierentiels couleur que nous avons 
presentee au chapitre 4. 



Type de transformation 


Taux d'appariements corrects 


Rotation image 


92-99 % 


Changement d'illumination 


92% 


Changement d'echelle 


40-60 % 


Changement de point de vue 


86-93 % 



Table 6.3 - Recapitulatif des taux d^ appariements corrects obtenus au travers des princi- 
pales transformations de Vimage. 



En ce qui concerne les changements d'echelle, les resultats obtenus ne sont pas tres 
bons (60% pour la transformation la plus faible, de facteur d'echelle 2). Ceci est du au fait 
que la detection et la caracterisation des points Harris Couleur n'ont pas ete realisees dans 
un contexte multi-echelle. II faudra envisager de le faire, en developpant par exemple une 
methode similaire a celle proposee par [Dufournaud et al., 2000] et presentee a la section 
5.L4.3 du chapitre 5. Elle semble etre une solution efficace pour traiter ces changements 
jusqu'a un facteur d'echelle de 6. 

La deuxieme etape de notre travail a ensuite consiste a mettre en place une methode de 
mise en correspondance efficace face a de grands nombres de points d'interet. La complexite 
des approches proposees (incluant notre propre methode d'appariement) engendre d'une 
part des temps de calcul tres importants et d'autre part un plus grand nombre d'ambiguites 
difficilement eliminees a I'etape de la relaxation. Nous avons done propose un algorithme 
incremental de mise en correspondance, base sur deux contraintes geometriques invariantes 
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aux transformations de Timage : la contrainte epipolaire et une triangulation construite 
sur les points apparies. 

Dans la section des resultats, plusieurs raises en correspondance utilisant ce principe 
ont ete realisees et etudiees. Les resultats obtenus sont encore ameliores par rapport a 
ceux calcules sans le processus incremental, en termes de qualite des appariements formes 
et de temps de calcul. Les trois exemples traites (figures 6.9, 6.10 et 6.12) ont permis 
d'obtenir respectivement 100%, 94% et 95% d'appariements corrects. Les temps de calcul 
sont egalement considerablement reduits par rapport aux approches traditionnelles. 

A la fin du processus complet de mise en correspondance qui vient d'etre presente, nous 
avons obtenu un ensemble d'appariements M. En addition, nous avons egalement calcule 
la geometric epipolaire du systeme des deux cameras caracterisee par Fm^ ainsi qu'une 
triangulation Tm des points apparies. Ces deux contraintes nous ont ete tres utiles lors du 
processus de mise en correspondance incremental, mais leur utilite ne s'arrete pas la. EUes 
peuvent en efi"et etre maintenant exploitees pour realiser par exemple la reconstruction 
tridimensionnelle de la scene, ou encore la synthese de nouvelles vues de cette scene. Ce 
travail fait I'objet de la prochaine partie de ce memoire. Dans le prochain chapitre, nous 
commengons par rappeler les difi'erentes notions permettant de definir les systemes de 
vision admettant deux et trois oculaires, dans un contexte non calibre. 



Troisieme partie 

Application a la synthese de vues 

intermediaires 
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Chapitre 7 

Geometrie des systemes 
binoculaires et trinoculaires non 
calibres 



L^objectif de ce chapitre est de rappeler au lecteur les principales notions requises pour 
manipuler les systemes de vision constitues de deux ou de trois cameras, dans un contexte 
non calibre. Dans un premier temps, les differents modeles de camera sont passes en re- 
vue. Puis nous presentons les entites caracterisant les systemes binoculaires, notamment la 
geometrie epipolaire. Ceux-ci representent la configuration minimale necessaire pour envi- 
sager une reconstruction tridimensionnelle. Nous nous interessons egalement aux systemes 
trinoculaires, qui manipulent des entites indispensables au transfert damages. Enfin, nous 
passons en revue les differentes methodes permettant V estimation des diverses entites mises 
en jeu. Les cameras n^etant pas calibrees, les seules informations exploitables pour ces es- 
timations sont les mises en correspondance de points. 
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Le but de ce chapitre est de rappeler le formalisme et les relations qui caracterisent 
un systeme de vision constitue d'au plus trois cameras. Nous decrivons d'abord a 
la section 7.1 le formalisme qui permet de modeliser une camera. Puis, apres avoir 
rappele les degres de liberte d'un systeme de N cameras a la section 7.2, nous presentons 
les differentes entites existant dans les systemes binoculaires a la section 7.3 et dans les 
systemes trinoculaires a la section 7.4. Nous nous arretons ici a Tetude de la geometric 
de trois cameras, les applications envisagees au prochain chapitre ne necessitant pas en 
theorie la donnee de cameras supplement aires. En effet, la donnee de deux vues d'une scene 
correspond a la configuration minimale permettant sa reconstruction tridimensionnelle, et 
la donnee de trois cameras correspond a la configuration minimale permettant de mettre 
en place des methodes de transfert d'images. 

Les diverses entites que nous manipulons ici sont liees entre elles et reliees a la matrice 
de projection caracterisant la camera par des relations qui sont ensuite passees en revue 
a la section 7.5. 

Cette etude est realisee dans un contexte de cameras non calibrees et de scenes ri- 
gides. Nous ne nous donnons done aucune information sur la geometric des cameras. Les 
seules donnees disponibles sont les appariements de points etablis a I'aide du processus 
de mise en correspondance decrit depuis le debut de cette these. Nous presentons done 
egalement a la section 7.6 les difierentes methodes d'estimation de tous les parametres mis 
en jeu dans les systemes binoculaires et trinoculaires a partir de ces seules donnees. Le 
lecteur pourra constater que nous insistons particulierement sur le calcul de la geometric 
epipolaire. L'estimation de la matrice fondamentale s'avere en efi"et relativement delicate 
a realiser, alors que cette entite represente une donnee essentielle dans Tetape de la mise 
en correspondance des points, comme dans le processus de reconstruction meme. 

Pour une excellente introduction a la geometric des systemes multi-oculaires, le lecteur 
pent se referer a Touvrage de Hartley et Zisserman paru recemment [Hartley et Zisserman, 
2000]. 



7.1 Le modele de camera 

Le modele le plus couramment utilise est le modele Stenope. D'autres modeles existent, 
certains ont Tavantage de la simplicite alors que d'autres prennent mieux en compte Fop- 
tique de la camera, comme par exemple la distorsion, mais au prix de parametres addi- 
tionnels. Ces modeles seront presentes a la section 7.L2. 

7.1.1 Le modele Stenope 

Le modele Stenope considere la transformation comme une projection perspective pure 
(cf. figure 7. La). II constitue une bonne approximation pour les projections efi"ectuees par 
les cameras CCD. 

Une camera est representee par un plan retinien P^ et un centre optique C qui n'ap- 
partient pas a P^. L'image d'un point M de I'espace est la trace du rayon (CM) sur le 
plan Pr. Cc est la distance focale ou c est la projection orthogonale de C sur P^ est est 
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Figure 7.1 - Les principaux modeles de projection. 
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Figure 1.2 - Le modele Stenope. 



Soit TZ{O^Rx^Ry^Rz) un repere orthonorme de I'espace, TZc{C^Cx^Cy^Cz) un autre 
repere orthonorme d'origine C tel que Taxe des z soit orthogonal a Pr et TZa{o^u^v) un 
repere affine du plan P^. L 'expression analytique de la projection de M en m se decompose 
en trois parties distinctes : 

- un changement de repere de I'espace (visant a exprimer Tl dans Tic) 'i 

- une projection (visant a exprimer m dans TZc) ; 

- un changement de repere dans le plan (visant a exprimer m dans 7^^). 

Cette operation de projection depend de plusieurs parametres : la rotation R et la 
translation T decrivent le changement de repere entre TZ et TZ^ est Tangle entre les 
vecteurs u et v^ a^ et a^ sont les facteurs d'echelle sur les axes, t^o ^t V{) sont les coordonnees 
de c dans le repere TZa- En pratique, 9 est toujours proche de | et le rapport ^ varie 
peu. La camera est done representee par i?, T, a^, a^, 9^ uq et vq. R et T sont appeles les 
parametres extrinseques puisqu'ils ne sont fonction que de la position et de I'orientation de 
la camera dans I'espace et ils dependent chacun de trois parametres. Les autres parametres 
sont appeles parametres intrinseques puisqu'ils sont fonction uniquement de la camera ; 
ils dependent en tout de cinq parametres. L'operation de projection est done fonction de 
11 parametres au total. 



Formulation projective 

Pour un point M donne de I'espace represente par le vecteur M(X^,y^,Z^) dans le 
repere 7^, ses coordonnees {u^ v) s'expriment dans le repere TZa du plan P^ en formulation 
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projective de la fagon suivante : 
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(7.1) 



D exprime le changement de repere de Tespace, Pq exprime la projection et A le 
changement de coordonnees dans le plan. 

L'equation 7.1 est bien sur definie a une constante multiplicative pres s comme toutes 
les equations projectives. P est une matrice (3 x 4) definie a un facteur d'echelle pres et 
de rang 3. On retrouve la dependance en 11 parametres. 



7.1.2 Autres modeles 

Nous presentons dans cette section les principaux modeles de camera existants en 
dehors du modele perspectif pur. Ces modeles sont specifiques a certains types de scenes ou 
certaines applications. lis sont decrits ici du plus simple au plus complet. Une comparaison 
approfondie pent etre trouvee dans [Horaud et al., 1995]. Nous verrons egalement dans la 
derniere section comment la distorsion peut etre prise en compte. 



7.1.2.1 Le modele orthographique 

Le modele de projection orthographique (cf. figure 7.1.b) est un modele perspectif dont 
le centre optique est a Finfini. Les rayons optiques arrivent done tous parallelement sur le 
plan retinien. C'est un modele tres simplifie et generalement utilise si la distance focale 
est tres grande ou si la scene est tres eloignee de la camera. Son manque de realisme ont 
conduit a la mise en place de modeles plus complets comme le modele perspectif ou ceux 
decrits ci-apres. 



7.1.2.2 Le modele perspectif faible 



Dans le cas ou la taille de la scene est relativement petite par rapport a la distance 
entre la camera et la scene, on suppose que les points subissent d'abord une projection 
orthogonale sur un plan perpendiculaire a I'axe optique et passant par le centre de gravite 
Go des points de la scene observee (cf. figure 7.1.c). Ensuite, I'image de chacun de ces 
points subit une projection perspective sur le plan retinien. Ici la projection perspective 
correspond tout simplement a une homographie, puisque tous les points appartiennent au 
meme plan de Fespace. 
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7.1.2.3 Le modele paraperspectif 

Ce modele est une variante du modele precedent. Les points subissent dans un premier 
temps une projection parallele sur le plan perpendiculaire a Taxe optique et passant par 
Go le centre de gravite de la scene, selon une direction definie par OGq- L^s points obtenus 
subissent ensuite une projection perspective sur le plan image (cf. figure 7.1.d). Ce modele a 
I'avantage, par rapport au precedent, de tenir compte d'une eventuelle translation laterale 
importante de la scene par rapport a Taxe optique. II tient compte du facteur d'echelle, 
de I'apparence d'objets a la peripherie de la camera. II est toutefois moins complet que le 
modele Stenope, et les calculs ne sont pas plus simples. II est tout de meme utilise dans 
certaines applications [Poelman et Kanade, 1994]. 

7.1.2.4 Modelisation des distorsions 

Trois hypotheses implicites sont contenues dans les modeles de camera precedents : 
d'une part, Timage se forme sur une surface qui est efi"ectivement plane. D 'autre part, les 
pixels sont regulierement espaces dans le plan image. Enfin la camera ne presente pas de 
distorsion optique. 

Les deux premiere hypotheses sont en general bien verifiees pour les cameras CCD. 
En revanche, la distorsion optique n'est pas negligeable. EUe transforme les coordonnees 
image ideales en coordonnees x' et y' : 

\ y^^y + 5y{x,y) ^'•'> 

II existe deux types de distorsion. Les distorsions radiales sont dues au fait que les 
lentilles ne sont pas parfaitement minces et qu'elles presentent des defaut de courbure. Leur 
efi'et est de deplacer les points image symetriquement au centre de I'image. Les distorsions 
tangentielles apparaissent lorsque I'assemblage des lentilles sur I'objectif n'est pas parfait 
(lentilles non alignees ou non positionnees perpendiculairement a I'axe principal, ...). EUes 
sont souvent accompagnees de distorsions radiales. 

Tres vite, le modele Stenope a ete complete afin de mieux representer le phenomene 
physique de la formation des images. Les photogrammetres se sont penches sur ce probleme 
en aj out ant aux parametres internes de la camera des parametres prenant en compte les 
distorsions radiales et tangentielles [Brown, 1966; Beyer, 1992]. Dans la communaute scien- 
tifique de la Vision par Ordinateur, des travaux ont egalement ete realises pour prendre 
en compte les distorsions radiales dans le calibrage des cameras ; citons la methode de 
Tsai [Tsai, 1986]. La correction apportee a un point {x^y) exprime dans un repere dont 
I'origine est confondue avec le centre des distorsions radiales, est realisee en translatant ce 
point par un vecteur (Aj:^, Ay^) defini comme suit : 



Axr — x{kir^ + k2r^ + ...) 
Ayr- = yikir'^ + fer^ + ...) 



2 , z. .4 , ^ (7.3) 



avec r^ — x'^ + y'^. Le nombre de parametres ki estimes depend de la precision que Ton 
souhaite obtenir sur le calcul de la distorsion et de la qualite de I'objectif utilise. 
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Ce modele a ensuite ete complete par I'ajout de parametres modelisant les distorsions 
tangentielles [Li et Schenk, 1990]. La correction des distorsions tangentielles pour un point 
(x^y) se modelise sous forme polynomiale par une translation {Axt^ ^Vt) definie par : 

f Axt = [pi(r2 + 2x^) + 2p2xy].[l +p3r^+PAr^ + ...] .^ ^. 

\ Ayt = [p2{r^ + 2y2) + 2pixy].[l ^p^r'^ +p^r^ + ...] ^ ' ^ 

Les experiences ont montre que le premier ordre etait generalement suffisant pour que 
la difference entre le point exact et le point projete dans Fimage soit inferieure a 0.1 pixel. 

D'autres methode plus recentes existent. II est ainsi possible d'annuler la distorsion 
en extrayant des contours qui sont censes representer des segments, puis en cherchant la 
meilleure transformation de ces contours vers des segments de droite [Brand, 1995; De- 
vernay et Faugeras, 1995]. L'avantage de ces methodes est qu'elles operent de maniere 
independante sur chaque image et ne necessitent aucune estimation prealable de pa- 
rametres intrinseques et/ou extrinseques. La seule contrainte requise est la presence de 
segments dans I'image. 



7.2 Degres de liberte d'un systeme de A^ cameras 

Nous considerons ici N cameras quelconques, sachant que dans les sections suivantes, 
N vaudra 2 et 3. Les degres de liberte du systeme ainsi forme correspondent au nombre 
de parametres necessaires pour le decrire. Ce nombre depend du type des transformations 
qui doivent laisser les parametres du systeme invariants. Un degre de liberte correspond 
done a un invariant scalaire independant^. 

Depuis le debut de ce chapitre, nous nous sommes places dans le formalisme des ma- 
trices de projection. Nous avons vu que chacune des matrices de projection possede 11 
parametres. Nous considerons le groupe des transformations le plus general, c'est-a-dire 
celui des transformations projectives (cf. annexe E), caracterise par une homographie 
(4x4), soit par 15 coefficients. Alors le nombre de degres de liberte a du systeme des N 
cameras est : 

a = 117V -15 (7.5) 

Dans le cas d'une seule camera, ce nombre n'est bien sur pas negatif mais est sim- 
plement nul. Pour plus de details concernant le comptage des invariants selon differents 
groupes de transformation, le lecteur pent consulter [Mundy et Zisserman, 1992]. 

Nous allons maintenant passer en revue les entites permettant de decrire la geometrie 
de systemes comprenant deux puis trois cameras. II existe une theorie tres complete basee 
sur les determinants qui permet de definir des relations a partir desquelles on peut deriver 
les bilinearites (la matrice fondamentale), les trilinearites et plus generalement les N- 
linearites. On la doit a [Triggs, 1994; Faugeras et Mourrain, 1995]. Pour une introduction 
a cette methodologie le lecteur peut egalement consulter [Laveau, 1996]. 

^Prenons Texemple des invariants differentiels couleur mis en place au chapitre 4. Ceux-ci sont invariants 
a la rotation, qui possede un seul parametre, son angle. Au premier ordre, il existe 3x3 = 9 grandeurs 
pour les trois plans couleur. On obtient done 9 — 1 = 8 invariants. 
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7.3 La stereovision binoculaire 

Apres avoir defini le formalisme de la projection sur une camera et rappele quelques 
notions sur les invariants, nous nous interessons maintenant aux relations geometriques qui 
existent entre deux vues de la meme scene. Les deux cameras peuvent etre deux cameras 
physiquement distinctes, ou une seule camera observant la scene a partir de deux positions 
differentes obtenues par deplacement. La scene est consideree comme un ensemble d'objets 
statiques, au sens ou ces objets ne bougent pas d'une vue a Tautre. 

La geometrie qui decrit alors un couple d'images d'une meme scene s'appelle geometrie 
epipolaire. EUe est caracterisee par une matrice (3 x 3) singuliere. Cette matrice est 
connue sous le nom de matrice essentielle lorsqu'elle integre les parametres intrinseques des 
cameras et de matrice fondamentale lorsqu'elle tient compte des parametres extrinseques 
uniquement. 

7.3.1 La matrice essentielle 

La matrice essentielle a ete introduite pour la premiere fois en 1981 par Longuet-Higgins 
[Longuet-Higgins, 1981] dans le contexte de I'etude du mouvement. Les deux cameras sont 
supposees avoir des parametres intrinseques connus. Dans ce contexte, la matrice essentielle 
est definie comme etant une matrice (3 x 3) notee £^12 et qui verifie pour tout point M de 
I'espace, associe a ses projections mi et m2 exprimees en coordonnees projectives^ de V^ 
dans les deux images : 

mlEumi = (7.6) 

Cette matrice est determinee a une const ante multiplicative pres et est de rang 2. 
D'autres proprietes la caracterisent : 

- EUe possede deux valeurs singulieres non nuUes et egales, 

- EUe verifie les deux relations 7.7 et 7.8 suivantes : 

(/? + q + qf = 4(||/i A hf + ||/i A hf + 11/2 A hf) (7.7) 

oil li representant les vecteurs lignes de E. 

trace^{EE^) = 2.trace{{EE^f) (7.8) 

Soit (i?, t) le deplacement entre les deux cameras, illustre par la figure 7.3 et tel que, 
pour tout point M de la scene : 

Mfinal = RMinitial + t (7.9) 

La translation t est exprimee dans le repere final et vaut t — C'C. La matrice R 
exprime la rotation autour d'un axe passant par le centre optique C". On rencontre parfois 
la convention inverse dans la litterature. 



1 ^2 \T 



Soit rrii = (m^ ,'n^i,s 
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Figure 7.3 - Contrainte de Longuet-Higgins. 



Alors il est possible de prendre pour £^12 la solution ci-dessous, t representant la matrice 
antisymetrique relative a t : 

(7.10) 



E12 ^ tR 



Les conditions sur le rang et la trace de E sont necessaires et sufEsantes pour assurer 
sa decomposition sous cette forme. II existe des techniques permettant de retrouver R et 
t a partir de E. EUes sont presentees a la section 7.6.1.5. 



7.3.1.1 Interpretation geometrique : la geometrie epipolaire 

La relation 7.6 signifie I'appartenance de 7712, le correspondant de mi, a une droite 
donnee, appelee droite epipolaire associee a mi et notee A (mi) a la figure 7.4. De meme, le 
point mi de la premiere image est situe sur la droite epipolaire conjuguee de D(mi). Cette 
droite correspond a la projection dans la deuxieme image de la ligne de vue (mi, Ci), Ci 
etant le centre optique de la premiere camera. On pent egalement voir les deux droites 
epipolaires conjuguees comme les intersections respectives des deux plans retiniens /i et I2 
avec le plan epipolaire defini par M et les centres optiques des deux cameras. Notons que 
les deux faisceaux de droites epipolaires engendres sont en correspondance homographique. 
Dans sa these [Luong, 1992], Luong presente une methode permettant de determiner cette 
homographie. 



7.3.2 La matrice fondamentale 



La matrice fondamentale est un concept cle lorsque les images ne sont pas calibrees. 
Luong a montre dans [Luong, 1992] qu'il existe une entite plus appropriee que la matrice 
essentielle pour Tetude des cameras qui est une matrice (3 x 3) appelee matrice fondamen- 
tale et notee F12. EUe est reliee a la matrice essentielle par une simple relation lineaire : 



F12 — A2 £^12^1 



(7.11) 
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D(m£) 



Figure 7.4 - Geometrie epipolaire d'un systeme de deux cameras. 

oil Ai et A2 sont les matrices des parametres intrinseques definies a Tequation 7.1. 
L 'equation exprimant la relation entre les pixels mi et m2 se transforme done en : 



m2 Fi2'mi — 



(7.12) 



Comme pour la matrice essentielle, Fumi — represente la droite epipolaire sur 
laquelle se trouvent les correspondants possibles de mi dans la seconde image. Recipro- 
quement, i^^m2 = traduit la droite epipolaire associee a 1712 dans la premiere image. 
Ces deux droites sont en correspondance homographique. Le noyau de F12 (resp. F^) est 
Tepipole eu (resp. 621) qui correspond a Timage du centre optique de la seconde (resp. 
premiere) camera vu de la premiere (resp. seconde). 

Comme nous Tavons vu a I'equation 7.5, le systeme ainsi decrit possede 11 x 2 — 15 = 
7 parametres. En effet, la matrice fondamentale est une matrice (3 x 3) definie a un 
facteur d'echelle pres et caracterisee par un determinant nul. EUe ne depend done que de 
7 parametres independants. 

En resume, la matrice fondamentale contient toute I'information d'un systeme binocu- 
laire projectif et c'est la seule contrainte geometrique qui existe entre deux images lorsque 
les parametres intrinseques et extrinseques des cameras sont inconnus. Lorsque cette ma- 
trice est disponible, on dit que le systeme binoculaire est faiblement calibre. 
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7.3.3 Une configuration particuliere : les scenes planes 



Considerons des points de Tespace Mi se trouvant en configuration generale dans un 
meme plan 11, et leur image rrii. Les points tridimensionnels et leurs projections respectives 
sont relies par une relation projective lineaire^ de V^ vers V^. Celle-ci se restreint dans ce 
cas a une relation entre le plan 11 et le plan de Timage obtenue, et est done une homographie 
h du plan V^. Si nous avons a notre disposition deux images rrii et mj des memes points de 
la scene, alors la relation entre ces deux projections est h' o h~^^ comme Tillustre la figure 
7.5. C'est egalement une relation homographique caracterisee par une matrice inversible 
H et telle que : 

-' = Hrui (7.13) 



rriA 




Figure 7.5 - Points en correspondance homographique dans le plan projectif V^ 



Un minimum de quatre projections en correspondance et issues de points du plan de 
reference 11 est necessaire pour calculer cette homographie (cf. annexe E). Les methodes 
d'estimation employees sont similaires a celles developpees pour I'estimation de la matrice 
fondamentale (cf. section 7.6.1). II est egalement possible de se limiter a trois points 
(suffisants pour definir le plan) et de la relation suivante exploitant la matrice fondamentale 
F : 



H^F + F^H = 



(7.14) 



7.4 Le cas de trois cameras 



L'etude de la geometrie d'un systeme de trois cameras nous interesse car les proprietes 
qui en decoulent seront utiles pour calculer des points de vues intermediaires a partir de 
deux images (cf. section 8.2 du chapitre 8). De plus, c'est la configuration generique avec 
le plus petit nombre de cameras. En efi'et, il a ete montre [Beardsley et al., 1992] qu'aucun 
phenomene mathematique nouveau n'apparait pour un nombre de cameras superieur a 3. 



^Le lecteur peut se referer a I'annexe E pour une introduction a la geometrie projective. 
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7.4.1 Les contraintes epipolaires 

Pour un systeme trinoculaire, il y a trois matrices fondamentales, totalisant 3x7 = 21 
parametres. Ces parametres ne sont pas independants, puisque le systeme trinoculaire 
possede reellement 11 x 3 — 15 = 18 parametres independants (cf. equation 7.5). II faut a 
partir de la considerer deux cas de figures, selon que les centres optiques des trois cameras 
sont alignes ou non. Le cas des centres optiques alignes se produit assez couramment, 
Tutilisateur pouvant etre seulement amene a translater la camera sur une ligne ou encore 
a lui appliquer une rotation autour de son centre optique. 



7.4.1.1 Centres optiques non alignes 

Si les trois centres optiques Ci, C2 et C3 ne sont pas alignes, alors les epipoles associes 
appartiennent tous au meme plan defini par (Ci, C2, C3) et appele plan trifocal. Cette 
notion est illustree par la figure 7.6. II existe alors dans ce plan les contraintes suivantes 
entre les epipoles [Faugeras et Robert, 1994] : 



^23-621 = 631 A 632 

^31-632 = ei2 A ei3 

^12-613 = ^23 A 621 



(7.15) 




Figure 7.6 - Contraintes epipolaires dans le plan trifocal. 

Considerons la premiere relation qui implique les projections 621 et 631 du centre op- 
tique Ci. La droite epipolaire de 621 dans la troisieme image est i^23-e2i. Cette droite 
contient 631 et 632 ; elle pent done egalement etre exprimee par le produit vectoriel^ 631 Ae32. 
II en est de meme pour les deux autres centres optiques. 



^Rappelons qu'en projectif, la droite (MN) a pour equation MAN. 
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7.4.1.2 Centres optiques alignes 

Dans le cas de centres optiques tons alignes, les contraintes sont simplifiees, puisqu'on 
obtient : 

623 = 621 (7.16) 

631 = 632 

La determination d'un epipole dans chacune des images fixe les trois autres. D'un point 
de vue geometrique, tons les epipoles sont sur la meme droite (Ci, C2, C3). Les degres de 
liberte du systeme sont alors bien moins nombreux. Dans ce cas, les matrices fondamentales 
ne contiennent pas toute Tinformation du systeme trinoculaire. EUes ne permettent pas 
de retrouver toute la structure projective de la scene. 

Les matrices fondamentales ne semblent pas constituer un bon moyen pour caracteriser 
un systeme compose de trois cameras. En efiet, elles sont redondantes (avec 21 parametres) 
et Fexpression des contraintes de I'equation 7.15 est relativement complexe, car polynomiale 
d'ordre 3 ou 4. Dans certains cas, elles ne contiennent pas toute Tinformation du systeme 
trinoculaire. D'autres entites semblent davantage appropriees, comme les trilinearites, que 
nous presentons a la section suivante. 



7.4.2 Les trilinearites 

En 1994, Shashua a montre Texistence de quatre relations entre les points (a:, y), {x\ y') 
et (j:",y") en correspondance dans trois images. Ces relations sont donnees par le systeme 
suivant : 

OL\ + OL2X + OLzx'' + a/^y + asy' + ol^xx" ^ 

ajyy' + a^xy^ + a^x''y + aioa:"y' + anx'^yy' + ai2xx''y^ = 



(7.17) 



«i3 + oti^x + ai5y + aiey' + a^y'' + ai7yy'+ 

agyy" + aioy'y" + ai^xy' + a^xy'' + auxy'y'' + anyy'y'' = 

«19 + OL2{)X + a^x^ + a2ix'" + a22y + a^xx'+ 

a23xx^^ + aiox^x^^ + ajx^y + a24^"y + aux'x^^y + a^xx'x^^ — 

«25 + Oi26X + aiQx' + a27y + «2il/" + aisxx'+ 

«24yy" + OLijx'y + a23^y" + «io^'y" + ai2^^V + OLiix'yy'" = 

Les 27 parametres ai sont les coefficients representant la geometrie relative des trois 
cameras. lis ne sont pas independants, puisque le systeme n'est fonction que de 18 pa- 
rametres. Ces quatre formes ont ete demontrees dans [Shashua, 1994] mais aussi dans 
[Hartley, 1994]. Ce dernier a en effet montre que les trilinearites de Shashua sont iden- 
tiques aux relations issues du tenseur trifocal, de dimension (3 x 3 x 3) et ayant pour 
equation : 

Tijk = ajibkA. - aj^bki Vi, j, k G {1, 2, 3} (7.18) 



H. Le cas de trois cameras 189 

oil les Gij et hij representent les coefficients des deux matrices de projection. Bon 
nombre d'auteurs expriment d'ailleurs les trifinearites sous cette forme. EUe est Fequivalent 
pour trois images de la matrice fondamentale caracterisant deux images. 

Dans ce qui suit, nous serons amenes selon le cas a employer Texpression des tri- 
finearites sous la forme introduite par Shashua a Fequation 7.17, ou bien sous la forme 
du tenseur trifocal de Hartley (equation 7.18). Selon la fagon dont il aura ete calcule, le 
tenseur pourra etre caracterise soit par une representation minimale qui ne depend que de 
18 parametres, c'est-a-dire pour laquelle les parametres verifient des contraintes definies 
entre eux, soit par une representation qui depend de plus de parametres et qui ne verifie 
aucune contrainte specifique a la geometrie trinoculaire. 

Autres contraintes 

Notons T(mi, 7712, 7713) les trifinearites du triplet de points (7771,7712,^3). H est facile 
de voir geometriquement que les trifinearites verifient : 

V77^l T(77^l,e2l,e3l) = 

V77i2 T(ei2,77i2, 632)^0 (7.19) 

V7713 T(ei3,e23,^3) = 

II est montre dans [Faugeras et Mourrain, 1995] que ces equations peuvent s'exprimer 
sous la forme de neuf equations difierentes et independantes. On obtient ainsi les 27—18 = 9 
contraintes supplementaires permettant de reduire Tespace du tenseur a un sous-espace de 
dimension 18, conduisant ainsi a une parametrisation de T minimale. Dans [Papadopoulo 
et Faugeras, 1998], une nouvelle formulation du tenseur trifocal est proposee, permettant 
ainsi d'aboutir a une representation minimale. 

En realite, les trifinearites s'averent etre equivalentes a une reconstruction projective 
implicite a partir de deux vues puis a une reprojection sur la troisieme. Les parametres a^ 
apparaissent comme etant des combinaisons des coefficients des trois matrices de projection 
perspective. Nous verrons au prochain chapitre qu'une reconstruction projective explicite 
se revele plus facilement manipulable. 

Signalons tout de meme que contrairement aux contraintes basees sur les deux matrices 
fondamentales definies a la section precedente, les trifinearites ont les avantages d'etre 
d'une part valides quelle que soit la configuration geometrique des centres optiques et 
d'autre part, d'exploiter les trois vues en meme temps. 

Relations entre droites 

Hartley a montre dans [Hartley, 1994] que trois droites en correspondance dans trois 
images verifient une relation fonction du tenseur trifocal. En effet, connaissant I'image 
d'une droite dans deux cameras, il est possible de deduire son image dans une troisieme 
camera a partir de la formule suivante : 

^i = T.^i^^'^m (7-20) 

oil Aj est la ieme coordonnee du representant projectif de la droite projetee dans 
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rimage /. Nous verrons plus loin que cette relation sera tres utile pour Testimation du 
tenseur ainsi que dans le chapitre suivant pour faire du transfert d'images. 

7.5 Relations entre les differentes entites 

Dans cette section, nous synthetisons les methodes permettant de passer des bi- et 
trilinearites aux matrices de projection et reciproquement. Nous allons notamment voir 
que le passage des matrices de projection vers les autres entites est une operation facile, 
alors que les operations inverses sont beaucoup plus delicates a realiser. 

Les methodes permettant de passer des bilinearites aux trilinearites et vice versa se 
seront pas passees en revue ici, puisqu'il est possible de les relier par les matrices de 
projection. 



7.5.1 Relation entre la matrice fondamentale et les matrices de projec- 
tion 

7.5.1.1 De F vers P 

Dans cette section, nous supposons connue la matrice fondamentale Fu reliant les deux 
images. Nous cherchons alors a partir de celle-ci un jeu possible de matrices de projection. 
Le systeme etant faiblement calibre, celles-ci seront bien sur definies a une transformation 
projective de V^ pres. Ce probleme a ete etudie par [Faugeras et al., 1992; Mundy et 
Zisserman, 1992; Luong et Vieville, 1994]. II en ressort : 



[ Pi = [/|o] 




-P2 = [e2i.-Fi2|e2i] 


I 

T 

a a4 



.G (^-^y 



ou 621 represente la matrice antisymetrique associee a Tepipole 621 de la seconde image. 
La matrice G est une matrice (4 x 4) arbitraire. Comme les matrices de projection sont 
definies a une transformation projective pres, on a coutume de prendre Fidentite pour G. 
Les scalaires a^, i G {1,..,4} sont egalement pris arbitrairement ; a4 ne doit cependant 
pas etre nul, pour que la matrice de projection composee par les a^ ne soit pas singuliere. 
lis representent les 11 — 7 = 4 parametres manquants^ permettant de determiner P2. 
En pratique, ces valeurs sont choisies de fagon que la matrice de projection obtenue soit 
numeriquement bien conditionnee. 

La solution de Tequation 7.21 est bien sur definie a un facteur d'echelle pres. EUe est 
consistante avec la geometrie epipolaire du systeme. Remarquons qu'elle est asymetrique. 
Tune des matrices (Pi) est definie comme la matrice de projection canonique, alors que 
I'autre (P2) contient toute I'information. Ces deux matrices vont permettre de construire 
un modele projectif de la scene (cf. section 8.1.1 du chapitre 8). 



^Rappelons que la matrice de projection perspective est caracterisee par 11 parametres et la matrice 
fondamentale par 7. 
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Cas de trois cameras 

Si le systeme possede plus de deux cameras, il est possible de mettre en place des 
relations entre les scalaires a^ des diverses matrices de projection. Par exemple, pour trois 
cameras, les quatre scalaires notes pi relatifs a la matrice de projection P3 s'expriment en 
fonction des ai de P2 selon une relation de la forme suivante [Laveau, 1996] : 

A = "^^T^"^ (7-22) 

oil u^v et w sont des vecteurs de dimension 3 fonctions des matrices fondamentales et 
des epipoles entre les trois images. Cette relation n'est valable que si les centres optiques 
des trois cameras ne sont pas alignes. II est necessaire d'avoir a disposition des donnees 
supplementaires dans le cas oil ils le sont, comme par exemple la donnee d'une trilinearite 
ou encore trois triplets de points en correspondance. 



7.5.1.2 De P vers F 

II est extremement aise de passer des matrices de projection a la matrice fondamentale. 
Si on decompose la matrice de projection Pi comme suit : Pi — [Q^|T^], alors la matrice 
fondamentale engendree est telle que : 

F12 = [T2 - gsQr'Ti] Q1Q2-1 (7.23) 

oil [X] denote ici aussi la matrice antisymetrique associee a X. Cette relation est vraie 
si les matrices Qi sont inversibles. 



7.5.2 Relation entre les trilinearites et les matrices de projection 

7.5.2.1 De T vers P 

Dans cette section, nous supposons connu le tenseur trifocal de Tequation 7.18. Nous 
nous plagons ici dans une base projective telle que Pi ait la forme canonique Pi = [^|0]. 
Soient P2 = [a^j] et P3 = \bij\ les deux autres matrices de projection. Dans ce contexte, 
les epipoles associes au centre Ci verifient : 

621 = [^^4] et 631 = [6^4] (7.24) 

Ainsi, d'apres le tenseur de Tequation 7.18, si les epipoles 621 et 631 sont connus, alors 
le probleme du calcul de P2 et P3 en fonction des trilinearites devient un probleme lineaire 
de 27 equations a 18 inconnues, et done pent etre resolu aux moindres carres. 

Determination des deux epipoles 

Dans [Laveau, 1996], Laveau reformule le tenseur de Fequation 7.18 de la fagon sui- 
vante : 

Tf^aibJ-aJbi ViG {1,2,3} (7.25) 
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oil ai represente la ieme colonne de la matrice P2 et hi la ieme colonne de la matrice 
P3. II remarque alors que ri — ai A a^ appartient au noyau de Ti et Si — hi A 64 au noyau 
de T^. II suffit done de resoudre les systemes suivants pour trouver ri et Si : 

Tin = et T^Si = (7.26) 

Par construction, on determine egalement 04 (resp. 64), et done 621 (resp. 631) en 
resolvant : 

rfa^ = et sjb^ = (7.27) 

7.5.2.2 De P vers T 

Nous nous plagons ici dans le meme contexte qu'a la section precedente, a savoir 
Pi = [^|0], P2 — [ctij] et P3 = [hj]- Alors pour un triplet de points (777-1,777-2,^3) en 
correspondance. Hartley exprime les trilinearites en fonction des matrices de projection 
de la fagon suivante : 

^m{(777^2^tT^-^^ - mfmlTjii) = ^ 777^ (777^777^T^-^a, - m^m^Tjik) (7.28) 



oil Tijf^ est le tenseur trifocal defini a Fequation 7.18 en fonction des coefficients de P2 
et de P3 et oil 777J represente la jeme coordonnee du point 777^, en coordonnees projectives 
(soit j G {1, 2, 3}). En faisant varier les indices «,&,/ et 777 avec i < 777 et / < &, on obtient 
neuf equations non lineairement independantes. Si Ton normalise les points 777^ en fixant 
les coordonnees 777? = 1 et si Ton choisit 777 = A: = 3, alors on retrouve les relations decrites 
par Shashua dans [Shashua, 1994]. 



7.6 Estimation des differentes entites 

7.6.1 Estimation de F 

Les premiers travaux consequents sur le calcul de la geometrie epipolaire sont dus a 
Longuet-Higgins (1981) et portent sur Testimation de la matrice essentielle. Depuis, des 
etudes similaires ont ete menees pour Testimation de la matrice fondamentale, les travaux 
les plus recents fournissant meme des criteres d'estimation beaucoup plus sophistiques. 

Les difierentes methodes existantes peuvent etre separees en deux grandes classes. La 
premiere classe est basee sur une minimisation de criteres Uneaires alors que la seconde 
exploite des criteres non Uneaires plus complexes. Ces deux classes font Fobjet des deux 
prochaines sections. Des methodes dites robustes sont egalement apparues. EUes utilisent 
selon le cas des criteres lineaires ou non lineaires mais ont la particularite de tenir compte 
dans leur processus d'optimisation d'un eventuel bruit contenu dans les donnees, ren- 
dant ainsi I'estimation de la matrice fondamentale precise meme en presence de donnees 
faussees. Ces approches sont detaillees a la section 7.6.1.3. Puis nous faisons un bilan des 
difierentes methodes passees en revue a la section 7.6.1.4. Enfin, le cas de trois cameras 
est envisage a la section 7.6.1.4. 
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7.6.1.1 Criteres lineaires 

L'equation de base 7.12 reliant deux projections a I'aide de la matrice fondamentale 
pent etre reecrite selon l'equation lineaire et homogene en les 9 coefficients de la matrice 
fondamentale F suivante : 

u^f = (7.29) 

avec 

u = [j:ij:2, yiX2, X2, Xiy2, yil/2, 1/2, ^i, l/i, 1]^ 

/ = [^11, ^12, ^13, ^21, ^22, ^23? ^31? ^32, ^33] 

II existe quelques methodes permettant de resoudre ce systeme, la plus connue etant 
bien sur Talgorithme des huit points que Ton doit a Longuet-Higgins [Longuet-Higgins, 
1981]. 

L'algorithme des huit points 

F etant definie a un facteur d'echelle pres, 8 appariements suffisent pour determiner 
une solution unique. Cette approche a donne lieu a un grand nombre de travaux, citons 
entre autres [Faugeras et al., 1987; Spetsakis et Aloimonos, 1988; Weng et al., 1989; Lee, 
1991; Luong, 1992; Zhang et al., 1995b; Hartley, 1997]. II est en particulier connu que cet 
algorithme est tres sensible au bruit. 

Les travaux originaux de Longuet-Higgins n'utilisaient que 8 points pour determiner 
F. En pratique, on dispose d'un nombre d'appariements (mi^,m2i) bien plus important. 
L'equation 7.29 qui correspond alors a un systeme surdetermine, peut etre resolue aux 
moindres carres, ce qui revient a minimiser par rapport a F le critere suivant : 

v^mY,{rnl^Fmiif (7.30) 



que Ton a I'habitude de reecrire comme suit, n etant le nombre de mises en correspon- 
dances : 



min||C//|p avec C/ = 



T 

u{ 

T 



T 



(7.31) 



La matrice F etant definie a un facteur d'echelle pres, plusieurs contraintes peuvent etre 
utilisees pour minimiser le critere 7.31. Les deux criteres les plus classiques consistent d'une 
part a fixer a 1 I'une des neuf composantes de F. L 'inconvenient de cette normalisation 
est que nous ne sommes pas a I'abri d'un mauvais choix en ce qui concerne le coefficient a 
fixer, etant donne que nous n'avons aucune information sur F. II est d'autre part possible 
de choisir une contrainte moins restrictive en fixant la norme de /. Le critere 7.31 devient 
alors une minimisation sous contrainte : 

minWUff avec ||/|| = 1 (7.32) 
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La solution a ce classique probleme d'algebre lineaire est alors obtenue en considerant le 
vecteur propre associe a la plus petite valeur propre de la matrice U^U. Dans la pratique, 
on diagonalisera directement cette matrice a I'aide de la methode de Jacobi par exemple, 
ou bien on procedera a une decomposition en valeurs singulieres. 

La methode lineaire presente I'avantage de conduire a une solution explicite par un 
calcul simple et non iteratif. En revanche, elle est tres sensible au bruit, c'est-a-dire a 
I'imprecision des appariements, meme si ceux-ci sont en grand nombre. Les deux raisons 
principales dues a cela sont que : 

- la contrainte det{F) — n'est pas imposee, qui fait que la contrainte de rang^ n'est 
pas exprimee. Cela entraine une incoherence de la geometrie epipolaire au voisinage 
des epipoles ; 

- le critere a minimiser n'est pas normalise, ce qui conduit a un biais dans la localisa- 
tion des epipoles. 

Ces deux defauts entrainent des erreurs importantes dans Testimation de la matrice 
fondamentale et des epipoles. Signalons qu'il existe une methode permettant de tenir 
compte de la singularite de la matrice a Tissue de cette resolution lineaire. Elle consiste a 
modifier la matrice F obtenue a la resolution de Fequation 7.29 par une matrice F' qui mi- 
nimise la norme de Frobenius ||F — F'|| sous la condition det{F') — 0. Une implementation 
utilisant la decomposition en valeurs singulieres est proposee dans [Tsai et Huang, 1984] 
pour Testimation de la matrice essentielle et dans [Hartley, 1997] pour celle de la matrice 
fondamentale. Cette solution donne de bons resultats, bien qu'elle ne soit pas parfaitement 
justifiee theoriquement. 

Pour finir en ce qui concerne Falgorithme des huit points, citons les travaux de Hartley 
dans [Hartley, 1995] qui en propose une amelioration. II remarque en efi'et que Testima- 
tion de la matrice fondamentale depend egalement du choix des coordonnees image dans 
lesquelles les appariements sont exprimes. II montre alors qu'une simple transformation 
de ces coordonnees (une translation et un changement d'echelle) permet d'ameliorer de 
fagon consequente Talgorithme des huit points, pour une complexite supplementaire in- 
signifiante. La methode est comparee a plusieurs methodes iteratives (lineaires et non 
lineaires, parmi celles qui seront presentees ci-apres). Les resultats montrent que ce pre- 
traitement des donnees rend le critere lineaire plus robuste qu'un bon nombre des autres 
methodes testees. 

Autres methodes 

II existe d'autres methodes permettant de resoudre le systeme 7.29 a partir de 7 ap- 
pariements seulement (la matrice ayant 7 parametres independants). Ces methodes four- 
nissent au plus trois solutions qui respectent la contrainte det{F) — 0. EUes correspondent 
a des interpolations lineaires entre les deux matrices fondamentales associees aux vecteurs 
singuliers issus de la decomposition en valeurs singulieres de U (cf. equation 7.31). Le 
lecteur pent se reporter notamment a [Torr et al., 1995] pour plus de details concernant 
la methode employee. 



^Rappelons que la matrice fondamentale est seulement de rang 2. 



1.6. Estimation des differentes entites 



195 



7.6.1.2 Criteres non lineaires 

Plusieurs methodes basees sur des criteres non lineaires existent pour ameliorer les 
critere lineaires. Nous presentons ici une methode repandue qui exploite la distance aux 
droites epipolaires. D'autres methode existent, comme la ponderation par le gradient qui 
prend en compte Tincertitude dans la minimisation. Le critere obtenu est d'ailleurs forte- 
ment similaire a celui obtenu avec la distance aux droites epipolaires. Pour une presentation 
plus complete et des experimentations concernant ces autres criteres, le lecteur pent consul- 
ter [Luong, 1992; Zhang, 1996]. 

Distance aux droites epipolaires 




e12 



Image 1 



Image 2 



e21 



Figure 7.7 - Distances du et d2i aux droites epipolaires Fmu et F^m2i. 



II est possible de tenir compte de la distance separant un point de la droite epipolaire 
de son correspondant, comme Fillustre la figure 7.7. Le critere doit etre symetrique, c'est- 
a-dire operer simultanement dans les deux images. On pent considerer : 



inm^{d'^{m2i,Fmii) + d^{mii,F^m2i)) 



(7.33) 



ou d(m, d) represente la distance euclidienne entre le point m et la droite d. En utilisant 
la relation m^^Fmw = mJ^F^m2i-, ce critere pent s'ecrire : 



minY, Di{F){mlFmiif 



(7.34) 



avec 



DiiF) = 



+ 



{Fmu)l + {Fmu)l {F^m2i)l + {FTm2i)l 



(7.35) 



oil {Fmi)j denote la jeme composante du vecteur Frrii. Contrairement au critere 
lineaire 7.30, ce critere represente une distance et a done une interpretation plus phy- 
sique. II est normalise, il ne depend en efi'et pas du facteur d'echelle choisi pour F. 
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Etant donnee la similarite entre le critere qui vient d'etre etabli et le critere lineaire 
7.30, il est possible de mettre en place une methode lineaire iterative pour resoudre la 
minimisation. L'approche consiste a ponderer le critere lineaire avec la contrainte des 
distances aux droites epipolaires. Dans une premiere etape, une matrice fondamentale Fq 
est estimee a partir de Talgorithme des huit points en minimisant le critere 7.30. Puis 
chacune des equations du systeme lineaire est multipliee par la racine carree du poids 
Di{Fo) defini a Tequation 7.35. L'algorithme des huit points est alors relance, et ainsi de 
suite. Malheureusement, cette variante des methodes lineaires classiques n'ameliore que 
tres peu Testimation de la matrice, toujours a cause de la contrainte de rang qui n'est pas 
respectee. On prefere proceder a une parametrisation de la matrice, qui elle, tient compte 
du rang. 

Parametrisation 

La premiere parametrisation qui vient a Tesprit consiste a fixer un des coefficients de la 
matrice a 1, puisqu'elle est definie a un facteur d'echelle pres. La matrice resultante admet 
done un parametrage sur 8 valeurs, qui sont le quotient de 8 coefficients par le coefficient 
normalisateur. En pratique, le choix de ce dernier est important vis-a-vis de la stabilite 
numerique des resultats dans le cas des criteres non lineaires. II semble que les meilleurs 
resultats soient obtenus en choisissant comme coefficient celui qui a la plus grande valeur 
absolue [Luong, 1992]. 

Malheureusement cette approche ne tient toujours pas compte du fait que F est de 
rang deux avec un determinant nul. Luong dans [Luong, 1992] propose alors d'exprimer la 
derniere ligne de F comme une combinaison lineaire des autres lignes, apres avoir fixe un 
des coefficients a 1 et avant de faire appel a des techniques de minimisation non lineaires. 

II est egalement possible de tenir compte de la structure de la matrice fondamentale 
pour obtenir un parametrage par les elements de la transformation epipolaire. On obtient 
par exemple la matrice de rang deux suivante [Luong et al., 1993] : 



a b —ax' — by' ^ 

c d —ex' — dy' 

-ax — cy —bx — dy {ax' + by')x + {ex' + dy')y j 



(7.36) 



oil {x^y) et {x'^y') sont les coordonnees des deux epipoles et les coefficients ceux de la 
sous-matrice (2x2) extraite de Thomographie entre les deux faisceaux de droites epipolaires 
en supprimant la troisieme ligne et la troisieme colonne. La matrice obtenue est effecti- 
vement de rang deux et depend de sept parametres. Notons que la formulation proposee 
initialement par Luong n'est exploitable que pour des epipoles finis. Dans [Zhang, 1996], 
elle est amelioree afin d'etre aussi valable pour des epipoles a I'infini. 



7.6.1.3 Criteres robustes 

Les methodes d'estimation robuste de la matrice fondamentale consistent a considerer 
que les donnees sont bruitees, c'est-a-dire que certains des appariements peuvent etre 
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incorrects''. EUes ont meme la capacite d'en eliminer une partie au cours du processus 
d'optimisation. 

La premiere approche est une generalisation du critere lineaire. La methode a ete 
proposee par [Golub et Loan, 1989] et s'appelle methode des moindres carres total. EUe 
consiste a considerer que les donnees L sont bruitees puis a minimiser le critere ci-dessous, 
la norme consideree etant celle de Frobenius : 

min II [E\r] \\f (7.37) 

Malheureusement Luong a montre dans sa these que cette methode donne des resultats 
encore moins precis qu'avec le critere lineaire classique. Les matrices obtenues semblent 
meilleures avec les methodes iteratives qui permettent de disposer de criteres non lineaires. 
Ces methodes sont presentees ci-apres. 

Ajustement des points 

Cette approche consiste a considerer un critere aux moindres carres J2i C{F^ mu^ ^2i)^ 
parmi ceux presentes aux sections precedentes et a effectuer une correction optimale sur 
les appariements. A chaque iteration, une matrice fondamentale F est estimee dans une 
premiere etape, en minimisant le critere C{F^mii^m2i). La seconde etape consiste ensuite 
a deplacer les points dans une certaine mesure de fagon a minimiser le critere suivant : 

^C(F,mif,mg))2 + A^{d2(4/),^g)+rf2(^{/)^^W)} (7.38) 

Le lecteur peut consulter [Luong, 1992] pour plus de details concernant ces mesures. 
Le processus iteratif est arrete lorsque les points ne varient plus de maniere significative. 
Cette procedure semble ne pas etre tres convaincante. Luong a tout de meme retenu 
des experimentations menees que Tintroduction d'un seul point tres faux peut modifier 
entierement les resultats, et qu'un deplacement minime des autres points conduit a une 
geometrie epipolaire presentant une compatibilite elevee. 

Les M-estimateurs 

Soit ri — C{F^mii^m2i) la valeur residuelle associee a la ieme donnee. Les methodes 
traditionnelles basees sur les M-estimateurs consistent a remplacer la partie residuelle au 
carre, utilisee dans les methodes lineaires aux moindres carres, par une autre fonction de 
cette partie. Le critere obtenu est de la forme : 

min^p(n) (7.39) 

i 

oil p est une fonction symetrique, definie positive avec un unique minimum a zero. 
Les M-estimateurs peuvent egalement etre vus comme un probleme aux moindres carres 
pondere. Le critere a minimiser devient : 

min^p^iny'l (7.40) 



^Un appariement est considere comme faux si les points qu'il implique sont mal localises ou encore si 
les deux points ne verifient pas la contrainte epipolaire. 
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les poids Paiu) etant estimes a partir des iterations precedentes. Chez plusieurs auteurs 
[Luong, 1992; Olsen, 1992], ils sont de la forme suivante : 



Pain) 



1 \ri\<a 

(T <\ri\<ca (7.41) 



Vi. 

ca < \r. 



oil c designe un seuil et a Tecart-type des erreurs n. Pai^i) decroit avec Teloignement de 
Tappariement i de la zone trouvee par les moindres carres. Des experimentations [Zhang, 
1996; Torr et Murray, 1997] ont montre que cette methode est robuste face aux points mal 
localises mais en revanche sensible aux faux appariements, en partie a cause de la premiere 
estimation de la matrice fondamentale. 

Les approches basees sur les moindres medianes des erreurs au carre (LMedS) 

Par ce type de methodes, les parametres de la matrice sont estimes en resolvant le 
probleme de minimisation non lineaire suivant : 

minmedrf (7.42) 

i 

Cette methode est robuste face aux points mal localises comme face aux faux apparie- 
ments. Malheureusement, Tespace de recherche engendre par les donnees est beaucoup trop 
important et le probleme ne peut pas etre reduit a un probleme aux moindres carres. La so- 
lution proposee dans [Zhang et al., 1995b] consiste a minimiser le critere 7.42 a partir d'une 
partie des donnees. Les auteurs utilisent la technique de Monte Carlo pour determiner m 
sous-ensembles de 8 appariements parmi les n appariements^. Puis une matrice fondamen- 
tale Fg lineaire est determinee pour chacun de ces sous-ensembles. C'est ensuite le critere 
base sur la distance aux droites epipolaires rf — (f{m2i^Fsmii) + (f{mii^Fjm2i) qui est 
utilise pour la minimisation de Tequation 7.42, avec une parametrisation basee sur les 
elements de la transformation epipolaire (cf. equation 7.36). A partir de la, m medianes 
associees a chacune des matrices Fg sont calculees sur Tensemble des donnees {i — 1, ..., n). 
La methode LMedS s'averant sensible en presence de bruit gaussien, il ne suffit pas de 
retenir simplement la matrice Fg associee a la plus petite de ces medianes. Une methode 
aux moindres carres ponderee est alors utilisee pour estimer la matrice fondamentale qui 
sera retenue. Le critere a minimiser est a nouveau celui base sur la distance aux droites 
epipolaires. Les poids utilises exploitent la plus petite mediane obtenue a Tetape precedente 
pour determiner un seuil de distance. lis permettent ainsi d'eliminer du calcul les apparie- 
ments qui sont a une distance trop importante des droites epipolaires conjuguees, et par 
consequent consideres comme incorrects. Cette variante rend la methode plus robuste que 
les methodes LMedS classiques, puisque seuls les inliers sont impliques dans le calcul. 

7.6.1.4 Synthese des difFerentes approches presentees 

Nous venons de passer en revue les principales methodes d'estimation de la geometrie 
epipolaire d'un systeme stereoscopique non calibre. En resume : 

^Dans leurs experimentations, m est calcule en considerant que les donnees peuvent contenir jusqu'a 
40% d' appariements incorrects. Une methode de bucketing est egalement employee pour obtenir des sous- 
ensembles d' appariements correctement repartis dans les images. 
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Au moins 7 raises en correspondance de points sont necessaires pour determiner la 
matrice fondamentale entre les deux images. Avec seulement 7 appariements, on obtient 
trois solutions en resolvant une equation cubique, qui tient compte de la contrainte sur le 
determinant de la matrice. Si plus de donnees sont disponibles, alors une solution unique 
existe et de multiples methodes ont ete mises en place pour Festimer. Ces methodes ont 
ete decomposees en trois classes : 

Les methodes lineaires : elles sont simples a mettre en place mais ont le principal 
inconvenient d'etre sensibles au bruit et de ne pas etre stables, d'une part parce 
qu'elles ne tiennent pas compte de la singularite de la matrice fondamentale, et 
d'autre part parce que le critere minimise n'a pas de realite physique. II est tout de 
meme possible de les ameliorer en faisant subir un pre-traitement aux appariements 
(travaux de Hartley). Les resultats restent tout de meme moins bons qu'avec les 
meilleures methodes non lineaires ou robustes ; 

Les methodes non lineaires : les criteres non lineaires fournissant les meilleurs resultats 
sont ceux relatifs a la distance aux droites epipolaires et a la ponderation du gra- 
dient (ils sont d'ailleurs tres semblables). L'estimation est encore amelioree lorsque 
la matrice fondamentale est reparametree afin de tenir compte explicitement de la 
contrainte de rang deux ; 

Les methodes robustes : contrairement aux precedentes, ce sont des approches itera- 
tives qui tiennent compte du bruit contenu dans les donnees, c'est-a-dire d'eventuels 
faux appariements. Elles permettent meme d'en eliminer une partie au cours de l'es- 
timation. Les methodes permettant d'aboutir a la meilleure estimation sont celles 
basees sur les M-estimateurs et sur les LMedS. Ce sont en effet les plus robustes car 
elles eliminent les faux appariements au cours du processus iteratif, par un systeme de 
ponderation des donnees. Les M-estimateurs peuvent etre traites comme un probleme 
aux moindres carres pondere. Les experimentations ont cependant montre que cette 
approche est robuste face aux points mal localises mais sensible aux faux apparie- 
ments. Au contraire, les approches LMedS sont aussi bien robustes face aux points 
mal localises que face aux faux appariements. Dans ce cas, la minimisation est non 
lineaire et il n'existe pas de methode simple pour I'exprimer, ce qui rend malheu- 
reusement I'espace de recherche beaucoup trop grand. Zhang et son equipe ont alors 
propose une variante de cette approche qui travaille sur un sous-espace des donnees, 
permettant ainsi de rendre cette approche realisable ; 

Le lecteur pent consulter [Luong et Faugeras, 1995; Zhang, 1996] pour une mise en 
oeuvre et une comparaison de toutes ces methodes et [Torr et Murray, 1997] specifiquement 
pour les methodes robustes. 

Cas de trois cameras 

II est possible de generaliser le calcul des matrices fondamentales pour un nombre 
quelconque d'images. La methode consiste a calculer les matrices Fij en utilisant la meme 
parametrisation, mais en operant une minimisation sous contrainte. Laveau montre dans 
[Laveau, 1996] que ce calcul s'avere tres complexe dans le cas theorique de N cameras, 
puisque le nombre de contraintes varie entre 0{N^) et 0{N^). Dans le cas de trois cameras, 
on comptabilise trois contraintes, ce qui rend l'estimation encore realisable dans la pra- 
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tique. 

7.6.1.5 Decomposition de la matrice essentielle 

Dans le cas ou la matrice fondamentale et les matrices des parametres intrinseques sont 
connues, alors la relation 7.11 donne la matrice essentielle E. Les parametres du mouve- 
ment entre les deux cameras peuvent alors etre obtenus en decomposant cette matrice selon 
I'equation 7.10 [Longuet-Higgins, 1981]. II est connu que la factorisation n'est pas unique, 
la translation t ne pouvant etre determinee qu'a un facteur d'echelle pres et la rotation R 
a un angle ir pres. Ces ambigui'tes peuvent etre levees a partir de la donnee d'une seule 
correspondance de points, le point reconstruit devant etre localise devant les cameras. La 
matrice E etant le plus souvent une approximation de la veritable matrice essentielle, les 
methodes developpees a la suite de Longuet-Higgins [Tsai et Huang, 1984; Faugeras et al., 
1987; Hartley, 1992] consistent a decomposer cette approximation en verifiant de maniere 
seulement approchee les conditions de decomposabilite. Ces methodes sont au nombre de 
deux : 

Approche basee sur les quaternions 

La propriete E^t — deduite de U — permet de determiner t aux moindres carres 

en minimisant le critere : 

min \\E^tf (7.43) 

ll*INi 

Puis la rotation R est estimee en minimisant le critere suivant [Faugeras et al., 1987] : 

\\E-tRf (7.44) 

Une solution explicite pent etre obtenue grace a Tutilisation des quaternions pour 
representer la rotation. 

Decomposition en valeurs singulieres 

La seconde methode est celle de Tsai et Huang [Tsai et Huang, 1984]. EUe consiste a 
utiliser la decomposition de E en valeurs singulieres pour faire apparaitre le produit d'une 
matrice antisymetrique avec une matrice orthogonale, representant respectivement t et R. 

L'interet de cette approche reside dans le fait que la factorisation ainsi obtenue est 
optimale. En effet, si la matrice E decomposee n'est qu'une approximation, alors sa 
decomposition en t et i? minimise ||£^ — £^'|p, ou E' — tR represente la matrice essen- 
tielle la plus proche de E verifiant les proprietes des matrices essentielles^ [Hartley, 1992]. 

L'efiicacite des deux methodes presentees depend bien sur tres fortement de la qualite 
de la matrice fondamentale estimee. L'estimation du mouvement etant en fait fondee sur 
ce calcul, il est egalement possible d'exploiter directement les methodes d'estimation de 
la matrice fondamentale. On peut par exemple adapter le critere lineaire 7.30 ou encore 



^Une de ces proprietes etant que la matrice essentielle possede deux valeurs singulieres non nulles 
identiques et la troisieme nulle. 
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le critere non lineaire 7.34 a partir des relations 7.11 et 7.10 existant entre t, R et F. La 
solution est alors donnee par la minimisation iterative du nouveau critere obtenu, selon les 
coefficients de t et de i? [Luong, 1992]. Les experiences menees par Luong montrent que 
cette derniere methode donne des resultats un peu plus precis qu'avec les deux premieres 
approches, mais elle est tout de meme fortement dependante de I'initialisation du processus 
iteratif. 

7.6.2 Estimation de T 

Les methodes que nous venons de decrire pour Festimation de la matrice fondamentale 
peuvent egalement etre appliquees a Festimation des trilinearites, a quelques difierences 
pres que nous passons en revue ci-dessous : 

7.6.2.1 Criteres lineaires 

Les trilinearites fournissant les quatre relations du systeme 7.17 dependent de 27 pa- 
rametres et definies a un facteur d'echelle pres. II est done necessaire d'avoir a notre dispo- 
sition 7 triplets {mii^m2i^m^i) de mise en correspondance pour mettre en oeuvre le calcul 
[Shashua, 1995]. Bien sur de meilleurs resultats sont obtenus avec un plus grand nombre 
de points, en utilisant des methodes de minimisation aux moindres carres. Cependant, 
cette methode soufi're de plusieurs inconvenients : 

- Les 27 parametres sont estimes independamment les uns des autres alors qu'ils ne le 
sont pas, puisque le systeme n'est fonction que de 18 parametres (cf. equation 7.5) ; 

- Comme pour Festimation de la matrice fondamentale, la quantite minimisee n'a 
aucune realite physique. Cette inconvenient revet encore plus d'importance ici, car 
le tenseur trilineaire possede des coefficients qui different d'ordres de grandeur bien 
plus importants que ceux de la matrice fondamentale. 

Cette minimisation basee sur une approche lineaire est bien sur tres sensible au bruit 
eventuellement contenu dans les donnees. Une premiere solution pour rendre la methode 
plus robuste est d'introduire les equations trilineaires basees sur les droites (cf. equation 
7.20). Celles-ci sont en effet detectees de maniere plus stable et rendent ainsi les equations 
moins sensibles au bruit. Chaque triplet de droites en correspondance fournissant deux 
equations lineaires, il est necessaire d'avoir 13 appariements pour retrouver les 27 coeffi- 
cients du tenseur trifocal [Hartley, 1994]. 

II est egalement souhaitable de proceder a un pre-traitement des entrees, comme le 
preconise Hartley pour Falgorithme des huit points lors de Festimation de la matrice fon- 
damentale (cf. section 7.6.1.1). Laveau [Laveau, 1996] precise toutefois qu'elles demeurent 
tres sensibles au bruit, meme en prenant toutes les precautions necessaires pour normaliser 
les donnees. 

Une troisieme amelioration consiste a faire la resolution a partir du systeme 7.28 qui 
exprime neuf equations, meme si certaines sont des combinaisons lineaires des autres. Les 
resultats restent les memes en cas de bruit faible, mais se stabilisent mieux si le bruit 
contenu dans les donnees augmente. 
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7.6.2.2 Criteres non lineaires 

De maniere similaire au critere non lineaire developpe pour I'estimation de la matrice 
fondamentale qui exploite la distance aux droites epipolaires (cf. section 7.6.1.2), il est 
possible ici aussi de minimiser des distances physiques pour obtenir de meilleurs resultats. 

La solution proposee dans [Laveau, 1996; Faugeras et Papadopoulo, 1998] considere 
les trilinearites sous la forme 7.28 representee par neuf equations. Etant donne un triplet 
de points (mi, 7712,7713) en correspondance, Testimation consiste a minimiser la somme des 
Carres des distances entre rrik et les neuf droites generees a partir de ces equations et de la 
donnee de (771^, rrij). Le critere obtenu est symetrique. Pour obtenir une parametrisation mi- 
nimale du tenseur, il est possible de tenir compte des neuf autres contraintes de Tequation 
7.19 ou bien encore des relations entre le tenseur et les matrices de projection (cf. section 
7.5.2). Le systeme a minimiser comporte done 18 variables avec 3 x 9 = 27 equations 
par appariement present dans les trois images. Cette approche a ete testee et evaluee 
dans [Faugeras et Papadopoulo, 1998] ; les resultats obtenus sont bien meilleurs qu'avec 
les methodes lineaires jusqu'alors employees. 



7.6.3 Estimation de P 

Nous presentons dans cette section les differentes methodes permettant de construire 
les matrices de projection d'un systeme allant jusqu'a trois cameras, a partir des differentes 
entites qui viennent d'etre presentees. Des approches directes, estimant P directement a 
partir des appariements, sont egalement rappelees. 



7.6.3.1 A partir de F 

Considerons le cadre d'un systeme binoculaire ou trinoculaire dans lequel la ou les 
matrices fondamentales ont ete estimees selon une des methodes presentees a la section 
7.6.1. Les matrices de projection perspective associees peuvent alors etre retrouvees a 
partir des relations 7.21 et 7.22 reliant matrices fondamentales et matrices de projection. 
Cette solution presente plusieurs inconvenients : 

- Le calcul est extremement sensible a la qualite des matrices Fij estimees ; 

- Dans le cas de trois cameras, il subsiste le probleme des centres optiques alignes, qui 
necessite la donnee d'informations supplementaires. 

Quelques optimisations sont neanmoins envisageables. II est par exemple possible de 
minimiser une distance entre les nouvelles matrices fondamentales engendrees par les ma- 
trices de projection estimees (selon la relation directe 7.23) et les matrices fondamentales 
initiales. Toute la difficulte reside ici dans le choix d'une metrique entre matrices fonda- 
mentales. Dans sa these [Luong, 1992], Luong propose d'etudier la distance relative entre 
les epipoles. II est egalement possible de considerer la distribution des distances eucli- 
diennes mesurees entre des appariements verifiant la contrainte epipolaire associee a la 
matrice fondamentale initiale et les droites epipolaires engendrees par la matrice fonda- 
mentale recalculee. C'est en theorie la meilleure solution, elle a en effet une signification 
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physique dans Fimage. EUe n'est cependant pas calculable simplement ; il faut avoir re- 
cours a des methodes statistiques, ce qui la rend en pratique inutilisable a I'interieur d'une 
minimisation. Laveau [Laveau, 1996] prefere quant a lui calculer la distance entre les 
sept parametres independants de la matrice fondamentale. Ses experimentations montrent 
qu'elle donne plus rapidement des resultats similaires a la methode calculant la distance 
entre appariements et droites epipolaires recalculees. 

7.6.3.2 A partir de T 

II suffit ici de reprendre la relation qui existe entre le tenseur trifocal et les matrices 
de projection, qui a ete presentee a la section 7.5.2.1. Rappelons que dans la pratique, 
la qualite des matrices obtenues depend fortement du tenseur trifocal estime. En effet, 
si celui-ci n'est pas represente par une parametrisation minimale avec 18 parametres, ce 
qui est le cas le plus courant, alors il est tres difficile de dire si les matrices de projection 
engendrees sont les meilleures [Laveau, 1996]. 

En outre, le passage vers P implique la resolution d'un systeme lineaire aux moindres 
Carres. Ce systeme prend en compte les coefficients du tenseur trifocal qui sont connus 
pour ne pas avoir le meme ordre de grandeur, rendant ainsi incertaine la minimisation. 

7.6.3.3 Estimation directe 

Nous venons de voir que la mise en place des methodes d'estimation des matrices de 
projection a partir des entites bilineaires et trilineaires n'est pas evidente la plupart du 
temps, d'une part parce qu'elle depend fortement de la qualite de ces entites, et d'autre 
part parce que le passage de ces entites vers les matrices de projection est souvent delicat 
a realiser. II existe done des approches permettant leur calcul directement a partir des 
mises en correspondance. 

Principe 

Comme I'illustre I'equation 7.1, une matrice de projection correspond a une matrice 
de changement de base multipliee par une matrice de projection canonique, elle-meme 
multipliee par une autre matrice de changement de base. II suffit done de considerer 
une base projective de I'espace projectif P^, et de connaitre les images des cinq points 
la composant^^ dans toutes les vues. La donnee de ces cinq correspondances plus une 
sixieme engendre alors 12 equations qui permettent de determiner les matrices de pro- 
jection dependantes de 11 parametres. On choisit typiquement pour la sixieme donnee 
un epipole, ce choix permettant de simplifier les equations ; un sixieme appariement quel- 
conque pent etre considere si la geometrie epipolaire est inconnue. La matrice de projection 
engendree est de la forme : 



(7.45) 
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^Une base projective de V^ est constituee de cinq points non coplanaires quatre a quatre. 
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oil Xi est un parametre facilement determine par la donnee de Tepipole, et oil le triplet 
(ai^/Si^'ji) est fonction des coordonnees d'un des cinq appariements (exprime dans la base 
canonique du plan projectif 7^^ a partir des autres correspondances). Une demonstration 
complete pent etre trouvee dans [Faugeras, 1992]. 

Methode robuste 

Comme le lecteur pent s'en douter, le principe que nous venons de developper ne s'ap- 
plique que si les appariements choisis et la donnee de Tepipole sont corrects, en supposant 
egalement que la base projective de V^ ainsi formee represente une base projective va- 
lide. La difficulte essentielle de Testimation de la matrice P reside done dans le choix 
de ces donnees. Sur le meme principe que la matrice fondamentale ou encore le tenseur 
trifocal, la mise en place de methodes d'estimation robuste necessite la determination 
d'une metrique, permettant ici de determiner Teloignement d'une base de la configura- 
tion degeneree. Certains travaux a base d'invariants, comme [Zisserman et al., 1995], 
permettent de detecter les configurations degenerees, mais ils ne proposent pas le type 
de metrique recherche. Dans sa these [Laveau, 1996], Laveau propose comme critere la 
distribution des distances separant les appariements des nouveaux appariements formes 
apres reprojection du point construit par triangulation^^ des appariements initiaux. Si- 
gnalons que cette approche permet egalement, dans une certaine mesure, de detecter les 
appariements faux, ceux-ci presentant des distances superieures aux autres. La procedure 
ensuite suivie est une minimisation classique de type LMedS similaire a celle presentee a 
la section 7.6.1.3 dans le cadre de Testimation robuste de la matrice fondamentale. 



7.6.3.4 Raffinement de la geometrie 

Apres avoir realise une premiere estimation des matrices de projection perspective selon 
une des approches proposees, il est classique de proceder a un rafiinement de la geometrie 
obtenue. La technique employee porte le nom de "ajustement des rayons optiques", mieux 
connue dans la communaute de la Vision par Ordinateur sous sa denomination en anglais 
de "bundle adjustment". 

Son but consiste a obtenir a la fois les points de la scene et les matrices de projection 
qui verifient au mieux les correspondances trouvees dans les images. Nous reprenons ici 
une distance similaire a celle introduite pour Testimation robuste presentee plus haut, a 
partir de la notation adoptee par Hartley [Hartley, 1994]. Soient u'j le jeme point de la 
ieme image. Pi la matrice de projection et Xj le point tridimensionnel associes tels que 
u'j — PiXj et tels : 



^d(S>;f (7.46) 



hJ 



oil d(., .) represente la distance euclidienne entre deux points du plan retinien. 

Le rafiinement de la geometrie consiste a minimiser cette somme des erreurs au carre 
sur Tensemble des matrices de projection. L'algorithme alors utilise dans ce contexte est 



^^Le lecteur peut se reporter a la section 8.1 du prochain chapitre pour une revue des methodes de 
triangulation. 
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classiquement un algorithme de Levenberg-Marquardt, bien connu pour effectuer des mi- 
nimisations non lineaires. 



7.7 Conclusion 

Dans ce chapitre, nous avons tout d'abord presente les differents modeles de camera. 
Le modele le plus utilise est le modele perspectif qui decrit notamment mieux que les 
autres les deformations dues a un changement de profondeur de la scene. II est associe 
a un formalisme agreable, celui de la geometrie projective. A partir de la, nous avons 
vu qu'il est egalement possible soit d'integrer des modeles de distorsion, soit de rectifier 
independamment chacune des images pour se ramener a un modele perspectif pur. 

A partir de ce modele de la geometrie d'une camera, nous avons rappele les difi'erentes 
entites qui peuvent etre mises en place dans les systemes binoculaires et trinoculaires. 
Pour les systemes integrant deux cameras, il exist e une mat rice 3 x 3 de determinant nul 
et definie a un facteur d'echelle pres, appelee matrice fondamentale. Celle-ci permet de 
caracteriser la geometrie epipolaire du systeme, qui depend de 7 parametres. Cette donnee 
est la seule information geometrique disponible lorsque les cameras ne sont pas calibrees. 
En ce qui concerne les systemes bases sur trois cameras, on retrouve bien sur la notion de 
matrice fondamentale pour chaque paire de cameras. Nous avons cependant constate que 
la geometrie pouvait etre capturee ici par une entite plus adaptee : un tenseur de dimension 
3x3x3 defini lui aussi a un facteur d'echelle pres. Dans sa version minimale, c'est-a-dire 
lorsqu'il verifie certaines contraintes internes, ce tenseur est equivalent aux trilinearites 
introduites par Shashua. II traduit les relations lineaires existant entre les coordonnees de 
triplets de points en correspondance dans les trois images. II permet ainsi de caracteriser 
plus efficacement qu'avec la matrice fondamentale le systeme trinoculaire dependant de 
18 parametres. 

Nous avons egalement rappele les difi'erentes methodes a la fois theoriques et pratiques 
permettant de passer d'une representation (matrice fondamentale, trilinearites/tenseur 
trifocal et matrice de projection) vers une autre. En resume, le passage des matrices de 
projection vers les n-linearites constitue une operation facile a realiser. En revanche, les 
operations inverses s'averent bien plus delicates a mettre en place. 

Enfin, nous avons passe en revue les difi'erentes methodes permettant d'estimer ces 
principales entites. Les cameras n'etant pas calibrees, toutes les estimations sont issues 
de mises en correspondance de points entre les images. Quelle que soit I'entite concernee, 
ce sont les methodes d'estimation robuste qui fournissent les meilleurs resultats. En efi'et, 
bien que simple d'utilisation, les methodes lineaires ne respectent pas la plupart du temps 
les proprietes de I'entite a determiner, comme la singularite de la matrice fondamentale 
par exemple. Les methodes non lineaires donnent de meilleurs resultats en integrant des 
criteres plus robustes comme les distances euclidiennes entre points et droites, ou encore la 
parametrisation de la matrice a determiner. Les methodes robustes, quant a elles, integrent, 
en plus de criteres non lineaires, un modele de bruit dans les donnees en entree, et ont 
meme la capacite d'eliminer les faux appariements durant la minimisation. 

En ce qui concerne I'estimation des matrices de projection, c'est la methode directe a 
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partir des raises en correspondance qui semble la plus robuste. En effet, les approches a 
partir des matrices fondamentales et des trilinearites sont tres sensibles a Festimation de 
ces dernieres. II est tout de meme souvent necessaire de raffiner la geometrie obtenue par 
des methodes iteratives. 

Nous allons maintenant voir au prochain chapitre comment il est possible d'utiliser les 
entites estimees pour proceder a la reconstruction de scenes tridimensionnelles ou encore 
au transfert d'images. 



Chapitre 8 



Synthase de vues intermediaires 



Ce chapitre est consacre a la presentation des methodes permettant de synthetiser des 
images d^une scene sous differents points de vue, a partir damages existantes. Ces ap- 
proches peuvent etre decomposees en deux classes : d^une part les approches procedant a 
une reconstruction tridimensionnelle de la scene, avant de la reprojeter sur le plan retinien 
de Vimage virtuelle, et d'autres part les methodes, dites methodes de transfert, qui generent 
Vimage virtuelle uniquement a partir de Vinformation bidimensionnelle contenue dans les 
images de reference. Nous illustrons ce chapitre par des resultats de reconstruction tridi- 
mensionnelle et de transfert projectif, realises a partir de points apparies par la methode 
qui a ete presentee dans les deux premieres parties de ce memoire. 
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Les travaux exposes tout au long de ce memoire ont permis de realiser la mise en 
correspondance de points d'interet au sein d'un systeme binoculaire caracterise par 
des cameras couleur non calibrees. A Tissue de la chaine de traitements mise en 
place, nous avons a notre disposition un grand nombre d'appariements entre les images, 
ainsi que la matrice fondamentale decrivant le systeme. Au sein de ce chapitre, nous allons 
en premier exploiter ces informations pour proceder a la reconstruction tridimensionneUe 
de la scene. Nous rappelons a la section 8.1 les differentes methodes de reconstruction 
existantes. La reconstruction projective est facilement realisable a partir de la donnee de 
la geometrie epipolaire, mais a Tinconvenient de fournir des reconstructions dans une base 
projective quelconque. Nous passons done brievement en revue les methodes permettant 
d'aboutir a des reconstructions affines, voire euclidiennes dans le meilleur des cas. 

Des rinstant oil des mises en correspondance et la geometrie epipolaire sont disponibles, 
il est possible de mettre en oeuvre une classe de methodes permettant de synthetiser de 
nouvelles vues a partir de vues existantes, et ce sans passer par une reconstruction tridi- 
mensionneUe. Ces methodes portent le nom de methodes de transfert damages. EUes sont 
presentees a la section 8.2. Nous allons voir principalement que ces methodes exploitent 
les n-linearites lorsqu'elles sont disponibles, ou encore certaines proprietes d'invariance de 
la geometrie projective. 

Puis dans la section 8.3, nous presentons divers exemples de reconstruction euclidienne 
ainsi que de transfert projectif d'images. Dans tous les cas, les calculs ont ete realises a 
partir des appariements et de la geometrie issus de notre algorithme complet de mise en 
correspondance. Les resultats exposes ici permettent d'illustrer concretement la coherence 
de Fensemble de la chaine de traitements. 

Pour indication, la section traitant de la reconstruction tridimensionneUe utilise essen- 
tiellement les notions de geometrie binoculaire developpees a la section 7.3 du chapitre 
7, alors que celle portant sur le transfert d'images exploite les relations definies dans les 
systemes trinoculaires, que nous avons presentees a la section 7.4 du meme chapitre. 



8.1 Reconstruction tridimensionneUe 

La reconstruction tridimensionneUe du point correspondant a un appariement (mi, m2) 
s'effectue traditionnellement en deux etapes : 

L II faut en premier lieu connaitre les matrices de projection caracterisant les deux 
cameras. Selon les donnees que nous avons a notre disposition a cette etape du 
calcul, ces matrices contiennent plus ou moins d'information, et permettent d'aboutir 
a une reconstruction seulement projective, affine ou encore euclidienne lorsque la 
calibration des cameras est connue. Nous passons en revue aux sections 8. LI, 8.L2 
et 8.L3 les informations necessaires pour obtenir ces trois types de reconstruction; 

2. A partir de ces matrices, on procede alors a la reconstruction du point 3D par 
triangulation de I'appariement (mi, 777-2). L^s differentes methodes de triangulation 
sont presentees a la section 8.L4. 



210 Chapitre 8. Synthese de vues intermediaires 

Cette classe de methodes, qui necessitent la donnee des matrices de projection, porte le 
nom de reconstruction explicite. Nous verrons notamment pour la reconstruction projective 
qu'il est possible de mettre en place des reconstructions implicites. 



8.1.1 Reconstruction projective 

Nous avons vu au chapitre 7 que lorsque le systeme est faiblement calibre, la seule 
information disponible est la geometric epipolaire reliant les deux cameras. II est alors 
possible d'obtenir les matrices de projection associees a ces deux cameras, selon les relations 
7.5.1.1. 

La reconstruction obtenue a Tissue de la triangulation est definie dans une base projec- 
tive de V^ arbitraire. II est clair que, utilisee telle quelle, elle ne respecte ni le parallelisme 
de la scene ni sa metrique. Notons cependant que Tutilisation des matrices de projection 
perspectives est particulierement appropriee pour les applications dont le domaine d'ac- 
tion se limite aux images. En effet, s'il semble manquer des informations entre le monde 
3D projectif et le monde euclidien; en revanche, pour les images les matrices de projection 
contiennent autant d'information qu'une calibration complete. 

Reconstruction projective implicite 

Cette seconde classe d'algorithmes de reconstruction utilise des mesures de Timage 
basees sur des invariants projectifs qui relient les projections appariees. Ces invariants 
sont la plupart du temps issus de Talgebre de Cayley ou encore de la geometric projective 
avec les birapports^. Pour une comparaison de ces methodes avec les approches explicites, 
le lecteur peut consulter [Rothwell et al., 1997]. II y apparait que ce sont les methodes 
implicites qui fournissent les reconstructions les moins precises. 



8.1.2 Vers une reconstruction afRne 

La reconstruction projective ne conserve pas le parallelisme. Par exemple, deux droites 
de rimage supposees etre paralleles dans la scene peuvent ne pas Fetre a Tissue de la 
triangulation. La solution permettant d'aboutir a une reconstruction affine consiste a 
determiner le plan a rinfini IIoo, c'est-a-dire le plan defini par les intersections des droites 
paralleles (qui sont done de la forme (X, Y,Z, 0) en coordonnees homogenes). L 'equation 
de ce plan est donnee par le calcul des coordonnees de trois points non alignes, un point 
etant donne par Tintersection de deux droites paralleles dans la scene dont on connait les 
projections dans les images (fournies de maniere interactive par Tutilisateur). La methode 
est la suivante : 

Determination de IIoo 

Soient Moo un point de la scene appartenant a IIoo ^t dij la projection dans Ij de la 
ieme droite passant par Moo- Etant donnees les matrices de projection (en projectif) Pj, 



^Le lecteur peut consulter I'annexe E pour une introduction a la geometric projective. 
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le point Moo verifie : 

dlPjM^ = (8.1) 

Ce systeme comporte autant d'equations qu'il y a de lignes visibles dans les images. II 
est lineaire et homogene en fonction des coordonnees de Moo- II pent etre resolu par une 
decomposition en valeurs singulieres. La donnee d'au moins trois points M^o permet de 
determiner Eoo- 

Une fois IIoo determine, il reste a mettre en place une base affine de la scene telle que 
Hoc corresponde effectivement a un plan a Tinfini, c'est-a-dire verifie Tequation T = 0. La 
reconstruction alors obtenue dans cette base conserve le parallelisme. Pour plus de details 
concernant la mise en place du plan a Tinfini et de la base affine, le lecteur peut consulter 
[Faugeras, 1995; Zeller, 1996; PoUefeys et VanGool, 1997]. 

L'homographie H^ 

On associe tres souvent a Hoc Thomographie de plan H^. Comme toutes les homogra- 
phies (cf. section 7.3.3 du chapitre 7), il est possible d'estimer celle-ci a partir de quatre 
points (ou trois points avec la geometrie epipolaire). Ce calcul est cependant delicat car il 
necessite la donnee de points a Tinfini, dont on connait la projection dans Fimage. Mais 
sa connaissance permet de savoir facilement si deux droites a reconstruire doivent etre 
par alleles ou non. 



8.1.3 Vers une reconstruction euclidienne 

La methode de reconstruction affine qui vient d'etre presentee ne garantit ni la conser- 
vation des angles ni celle des rapports de longueur, permettant d'aboutir a une recons- 
truction euclidienne. 

Si les cameras sont disponibles, il est bien sur possible de proceder a un etalonnage 
fort des cameras a partir d'une mire 3D, selon une des methodes proposees par Tsai [Tsai, 
1986]. 

Si seuls les parametres intrinseques sont disponibles (en plus de la matrice fondamen- 
tale), alors le mouvement relatif entre les deux cameras peut etre determine en decomposant 
la matrice essentielle selon une des methodes presentees a la section 7.6.1.5 du chapitre 7. 
On obtient alors la calibration complete du systeme, qui permet de conduire a une recons- 
truction euclidienne, les objets reconstruits etant exprimes dans le repere de la premiere 
camera. 

Si aucune de ces donnees n'est disponible, alors trois types de solutions sont envisa- 
geables : 

- On procede a Testimation des matrices de parametres intrinseques a partir de la ma- 
trice fondamentale F. Cette methode de resolution utilise les equations de Kruppa, 
qui sont la traduction algebrique de Tutilisation d'un invariant projectif important : 
la conique absolue [Kruppa, 1913]. Le lecteur peut consulter notamment [Luong, 
1992; Heyden et Astrom, 1996; Zeller, 1996; Lourakis et Deriche, 2000] pour une 
etude detaillee de ces equations. On procede ensuite a une decomposition de la ma- 
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trice essentielle pour retrouver le mouvement ; 

- II est egalement possible d'estimer les parametres intrinseques a partir de Thomo- 
graphie du plan a Tinfini Hoo [Vieville et al., 1996] ; 

- Lorsque c'est possible, on pent se servir de la donnee d'angles et de rapports de 
longueurs connues. Ainsi dans [Boufama, 1994; Laveau, 1996] notamment, Thomo- 
graphie permettant de passer de la reconstruction affine vers une reconstruction 
euclidienne est estimee en selectionnant dans les images des segments representant 
des aretes perpendiculaires dans la scene, et en fixant leurs longueurs respectives. 

Bien qu'il soit plus aise d'estimer F que Hoo {F necessite uniquement la donnee de 
correspondances dans les images), il s'avere beaucoup plus difficile d'estimer les parametres 
intrinseques a partir F qu'a partir de Hoo- La troisieme solution, quant a elle, n'est pas 
automatique et impose des contraintes metriques sur la scene. 

Rappelons que dans tous les cas, la reconstruction euclidienne est obtenue a un facteur 
d'echelle pres. En efiet, il subsiste toujours une ambiguite fondamentale entre la distance 
de prise de vue et la taille de la scene observee. Si la scene est plus grande et observee 
de plus loin, alors les images formees restent inchangees. Cette observation a par exemple 
pour consequence qu'il ne suffit pas simplement de combiner les difierents reperes mis en 
jeux pour ramener dans le meme repere plusieurs reconstructions de la meme scene issues 
de plusieurs couples d'images. Un exemple de reconstruction tridimensionnelle a partir de 
trois vues est presente a la section 8.3. 



8.1.4 Triangulation 

A ce stade des traitements, nous avons a notre disposition une certain nombre de mises 
en correspondance de points ainsi que les matrices de projection associees aux cameras 
(qu'elles soient projectives, afiines ou euclidiennes). II est done possible de reconstruire 
les points 3D par triangulation. Les appariements localises dans les images pouvant ne 
pas etre exempts de bruit, les lignes de vue associees peuvent ne pas etre secantes. La 
triangulation revient done a la minimisation d'un probleme sous contraintes. 

La methode lineaire classique 

La methode classique de triangulation consiste alors a calculer une solution aux moindres 
Carres sur toutes les equations de projection, comme I'illustre la figure 8.1. 

Pour un point M de I'espace, les equations de projection (cf. equation 7.1) pour trois 
cameras sont les suivantes : 



mi = PiM 

m2 = P2M (8.2) 

ms = P3M 
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Figure 8.1 - Reconstruction d'un point 3D par triangulation. 



Et le systeme lineaire correspondant a resoudre : 
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Le systeme ci-dessus de six equations a quatre inconnues permet de traiter le cas des 
lignes de vue toutes paralleles, pour lesquelles le point d'intersection se situe a Tinfini, soit 
M* = 0. Dans [Rothwell et al., 1997], les auteurs preconisent de resoudre ce systeme a 
Taide d'une decomposition en valeurs singulieres. La reconstruction alors obtenue est plus 
stable qu'avec les autres methodes. 

Ce type de reconstruction n'a en theorie de sens que dans un espace euclidien, la solu- 
tion correspondant au point M le plus proche de toutes les lignes de vue simultanement, au 
sens de la distance euclidienne. Pour des reconstructions projective et affine pour lesquelles 
cette metrique n'a pas de sens, il est necessaire d'employer d'autres approches : 

Dans [Hartley et Sturm, 1994], une premiere solution basee sur une methode lineaire 
iterative est proposee pour la reconstruction affine binoculaire. EUe consiste a introduire 
des poids dans la minimisation, qui tiennent compte des erreurs entre les points apparies 
et le projections exactes du point M. La methode obtenue fournit des resultats legerement 
meilleurs que la methode lineaire classique. EUe utilise des contraintes invariantes aux 
transformations afiines, et peut done etre employee dans le cadre d'une reconstruction 
affine. 



Ajustement des mises en correspondance 
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Toujours dans le cadre d'un systeme binoculaire, les memes auteurs proposent egalement 
une methode permettant d'aligner les appariements precisement sur les droites epipolaires, 
afin de garantir que les lignes de vue se coupent. Pour un appariement donne, la methode 
consiste a determiner les droites epipolaires conjuguees les plus proches des deux points 
impliques, puis a projeter ces points sur les droites trouvees. Le nouvel appariement forme 
respecte exactement la geometrie epipolaire, ce qui garantit d'avoir deux lignes de vue 
secantes. Cette approche a de nombreux avantages : elle est tres rapide, la geometrie 
epipolaire utilisee peut etre relativement imprecise, et elle peut etre employee pour n'im- 
porte quel type de reconstruction. Rappelons que si elle n'a pas ete calculee, la geometrie 
epipolaire est facilement obtenue a partir des matrices de projection par Tequation 7.23 
presentee au chapitre 7. 

Methode robuste pour N oculaires 

Lorsque le nombre de cameras est superieur a deux, la minimisation aux moindres 
Carres, qui donne une solution satisfaisant au mieux toutes les contraintes simultanement, 
peut etre completement faussee a cause d'un appariement incorrect dans la ieme image. 
Laveau propose dans sa these [Laveau, 1996] une solution robuste basee sur Tapproche 
LMedS par tirages aleatoires (similaire a celle utilisee pour Testimation de la matrice 
fondamentale a la section 7.6.1.3 du chapitre 7). Pour chaque appariement, le point M est 
reconstruit aux moindres carres uniquement a partir de deux points parmi les N points 
en correspondance, puis il est reprojete dans toutes les images. Les 7V-uplets de points qui 
verifient une trop grande erreur entre un des points les composant et le point reprojete sont 
elimines du processus. La reconstruction aux moindres carres est alors reiteree a partir 
des correspondances restantes completes. 



8.2 Synthese de nouvelles vues sans modele tridimensionnel 

Les techniques permettant de generer des nouvelles images a partir de vues existantes 
portent souvent le nom de transfert damages. EUes permettent de supprimer Fetape de 
modelisation tridimensionnelle de la scene, parfois fastidieuse ou inutile, en la definissant 
non pas par un modele tridimensionnel, mais par un ensemble de vues (bidimensionnelles) 
reelles. Plus formellement, connaissant les N projections d'un point de I'espace dans les 
N images, il s'agit de le transferer dans une {N + l)eme image, c'est-a-dire de calculer 
la position ou il se projetterait dans cette nouvelle image, et ceci sans passer par une 
reconstruction tridimensionnelle du point. Ces techniques sont issues de la stereovision 
trinoculaire et de la reconnaissance d'objets a partir de vues multiples. Nous faisons es- 
sentiellement reference ici aux travaux realises par [Laveau, 1996; Avidan et Shashua, 
1998; Blanc, 1998]. 

Nous nous plagons ici dans la categorie des systemes de transfert qui fournissent des 
vues geometriquement valides, c'est-a-dire semblables a celles qui seraient reellement vues 
par une camera placee a I'endroit donne. Nous ne developpons done pas les approches 
comme le morphing interpolation [Beier et Neely, 1992], bien connu du grand public ou 
encore la methode de Werner [Werner et al., 1995] basee sur des combinaisons lineaires 
entre projections. 
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8.2.1 Principe 

Soient /i et I2 les deux images servant de reference et I^ Fimage transferee. Etant 
donnee la correspondance (mi, 777-2) de points dans les deux images de reference, le probleme 
du transfert consiste a determiner dans Timage virtuelle la position du point 7773, telle que 
le triplet (7771,7772,7773) soit issu du meme point tridimensionnel. Une fois trouvee, il sufEt 
d'affecter a 7773 une combinaison des couleurs des pixels 7771 et 7772. 

Correspondances denses/eparses 

Ces methodes sont appliquees selon le cas sur des mises en correspondance denses 
ou eparses. Dans le cas de mises en correspondances denses, on obtient en theorie en 
sortie du transfert Timage virtuelle dans son integralite. Nous verrons qu'il est necessaire 
dans la pratique de raffiner Fimage obtenue lorsque la methode de transfert utilisee est 
directe. Dans le cas de mises en correspondances eparses, il est classique de construire 
un maillage sur les points d'interet transferes, puis de calculer les couleurs des pixels non 
renseignes par mapping (affine ou mieux, projectif) des textures des images de reference. 
Dans [Laveau, 1996], Laveau utilise une triangulation de Delaunay. Dans [Blanc, 1998], 
Blanc construit quant a lui une triangulation plus sophistiquee, basee sur des criteres de 
coplanarite. Celle-ci permet notamment de gerer le probleme du recouvrement des zones 
occultees. 

Positionnement de I'image virtuelle 

Lorsque la calibration des cameras est inconnue, une des difficultes majeures du trans- 
fert est de definir la position de Fimage virtuelle par rapport aux images de reference. En 
effet, nous n'avons aucune information sur la position des cameras employees. La seule 
solution possible consiste a decrire la troisieme camera en fixant certains points dans les 
images de reference. Ainsi : 

- Le centre optique virtuel C3 est defini par deux epipoles 613 et 623 dans les deux 
images de reference ; 

- Le plan retinien virtuel est defini par trois appariements dans les deux images de 
reference. 

Les quatre paires de points ainsi definies ne sont pas obligatoirement la projection de 
reels points de la scene mais elles doivent au moins verifier la seule contrainte que nous 
ayons a notre disposition, a savoir la geometrie epipolaire. La notion de perpendicularite 
n'existant pas en projectif, il est impossible de definir un plan retinien virtuel qui soit 
perpendiculaire a la direction de vue choisie. 

Nous allons maintenant passer en revue dans les sections qui viennent les difi'erentes 
methodes permettant de localiser 7773 dans Fimage virtuelle. 



8.2.2 Morphing exact 

Lorsque les images respectent la contrainte d'ordre, il est possible d'obtenir des vues 
interpolees physiquement valides [Seitz et Dyer, 1997]. Leur idee est de rectifier les deux 
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images de reference avant d'interpoler la vue intermediaire lineairement par morphing. La 
nouvelle vue est alors obtenue en ramenant Timage interpolee dans le plan de la camera 
virtuelle. Cette technique requiert une mise en correspondance dense, qui est realisee ici par 
programmation dynamique pour etre en coherence avec la contrainte d'ordre^. Les resultats 
obtenus sont corrects geometriquement, mais le deplacement de la camera virtuelle reste 
tout de meme limite au cone de vision entre les deux images de reference. 



8.2.3 Utilisation de la geometrie epipolaire 

Supposons connus Fappariement (7711,7712) dans les deux images de reference /i et I2 
ainsi que les matrices fondamentales^ F13 et F23 reliant respectivement les images /i avec 
I3 et I2 avec I3. Le point 7713 transfere dans I3 se trouve a la fois sur la droite epipolaire 
conjuguee de 7711 dans I^ et sur la droite epipolaire conjuguee de 7712 dans /a, comme 
rillustre la figure 8.2. II est done defini tel que [Faugeras et Robert, 1994] : 



TTls = i^l377li A F23m2 



(8.4) 
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Figure 8.2 - Transfert a partir de la geometrie epipolaire. 



II est done possible de transferer dans I^ tous les points des deux images de reference, a 
condition d'avoir procede a une mise en correspondance dense entre /i et I2 et de connaitre 
les geometries epipolaires associees aux couples stereo (/i, ^3) et (/2, I3). Aucun etalonnage 
fort n'est necessaire, puisque les matrices fondamentales suffisent. 

Cette methode simple a de nombreux inconvenients : 



^Se reporter a la section 5.3.3 du chapitre 5 pour une presentation de la mise en correspondance dense 
par programmation dynamique. 

^Se reporter a la section 7.3.2 du chapitre 7 pour une definition. 
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- II faut connaitre les matrices fondamentales F13 et F23. Cela implique la donnee 
d'un certain nombre de correspondances entre une des images de reference et Timage 
virtuelle pour estimer ces matrices selon une des methodes presentees au chapitre 7 ; 

- La methode est degeneree pour les points appartenant au plan trifocal, les droites 
epipolaires engendrees dans I^ etant confondues dans cette configuration. Mais La- 
veau resout ce probleme dans [Laveau, 1996] a Taide d'une construction impliquant 
des points eloignes du plan trifocal ; 

- EUe Test aussi lorsque les centres optiques sont alignes, le plan trifocal n'etant plus 
defini ; 

- La transfert est direct : on part des points des images de reference pour construire 
Fimage virtuelle. A cause d'une possible distribution irreguliere dans I3 des pixels 
issus de /i et /2, des zones de I3 peuvent ne pas etre renseignees si Ton essaie de 
predire tous les points. Une solution possible consiste a employer des methodes de 
regularisation dans Timage obtenue, ou encore a proceder a un transfert epars de 
points d'interet, avant de construire Timage virtuelle par interpolation des niveaux 
de gris au sein d'un maillage triangulaire par exemple. 

8.2.4 Utilisation des trilinearites 

Si les trilinearites^ qui caracterisent le systeme trinoculaire sont connues, alors le trans- 
fert est immediat puisque Ton dispose d'equations permettant de determiner les coor- 
donnees de ms directement en fonction de celles de mi et de m2. 

Avec les trilinearites, le probleme des centres optiques alignes est elimine. Les resultats 
semblent aussi plus precis qu'a partir de I'estimation des F^j, selon une etude menee par 
Shashua [Shashua, 1994]. 

II subsiste tout de meme le probleme des pixels non renseignes dans I'image virtuelle 
generee. En outre, les quatre relations definies en 7.17 sont algebriquement equivalentes 
mais il a ete montre dans [Bobet et al., 1996] qu'elles ne le sont pas numeriquement. Le 
choix d'une forme precise semble dependre des images, et plus precisement de la confi- 
guration epipolaire. Par exemple, il s'avere que la troisieme relation ne permet pas de 
calculer la geometrie du systeme de fagon stable si les droites epipolaires sont proches de 
la verticale. En efi'et, cette relation ne fait pas intervenir la coordonnee y' qui represente 
pourtant une information plus pertinente que x' le long de ces droites. II serait peut-etre 
necessaire d'envisager la combinaison des quatre formes. 

Deplacement de la camera virtuelle 

Dans [Avidan et Shashua, 1998], Avidan et Shashua mettent en place une methode 
permettant de parametrer les coefficients du tenseur trifocal en fonction du deplacement 
de la camera virtuelle. lis definissent un operateur qui decrit la transformation permettant 
de passer d'un tenseur trifocal donne vers un autre tenseur correspondant au deplacement 
de cette camera. II suffit alors de definir ensuite un tenseur de base < 1, 2, 3 > a partir des 
vues disponibles et d'appliquer cet operateur pour synthetiser une nouvelle vue J-^, a partir 



*Se reporter a la section 7.4.2 du chapitre 7 pour une definition. 
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du tenseur obtenu < 1, 2,^0 >. Si trois vues de reference sont disponibles, alors le tenseur 
< 1, 2, 3 > est estime de fagon robuste a partir de raises en correspondances dans les trois 
images. Si seulement deux vues sont disponibles, un tenseur special < 1, 2, 2 > est propose, 
dont les parametres dependent de la matrice fondamentale estimee entre les deux vues. 
Cette methode a Favantage de rendre hors-ligne Festimation du tenseur entre les images 
de reference. Notons que les auteurs ne specifient pas la position de la camera virtuelle 
par des points de controle, mais par la donnee d'un deplacement (i?, t) par rapport a Fune 
des cameras de reference. 

Reconstruction projective explicite 

Principalement a cause de Finstabilite numerique des trilinearites, certains auteurs, 
citons notamment [Bobet et al., 1996; Blanc, 1998], preferent mettre en oeuvre une recons- 
truction projective explicite^ en estimant les matrices de projection des deux premieres 
cameras a partir de la matrice fondamentale, avant de reprojeter les points dans la 
troisieme. Cette solution permet egalement d'envisager facilement le deplacement de la 
camera virtuelle lors du transfert, Festimation des matrices de projection des deux premieres 
cameras pouvant etre realisee hors-ligne. 

8.2.5 Transfert projectif 

Nous passons en revue ici deux methodes de transfert d'images basees sur les inva- 
riants projectifs et similaires a celles proposees par Laveau dans [Laveau et Faugeras, 
1994]. Comme toutes les approches qui viennent d'etre presentees, la premiere methode 
est directe, c'est-a-dire transfere les appariements des images de reference vers Fimage 
virtuelle. Au contraire, la seconde approche part de Fimage virtuelle pour rechercher les 
pixels correspondants dans les images de reference ; c'est pourquoi elle porte le nom de 
"lancer de rayon" . 

8.2.5.1 Transfert projectif direct 

Nous montrons dans cette section comment il est possible d'exploiter la conservation du 
birapport (cf. annexe E) pour obtenir les coordonnees du point a transferer dans Fimage 
virtuelle. La methode requiert en premier lieu la donnee d'une base projective du plan 
projectif P^. 

Construction d'une base projective de V'^ 

En ajoutant aux trois paires de points definissant le plan retinien virtuel (cd. section 
8.2.1) une quatrieme paire de telle sorte que le point 3D correspondant appartienne aussi 
au plan virtuel, on obtient une base projective. La construction de ces deux points s'obtient 
en utilisant la propriete de conservation de la colinearite en geometrie projective ainsi que 
la contrainte epipolaire, comme Fillustre la figure 8.3. Le point c' est construit tel que 
{a^a')^ {b^b')^ (c, c') et (d, d') soient les projections de quatre points appartenant au plan 
retinien virtuel [Morin, 1993]. 

Cette construction est assez facile a realiser. Cependant, si le choix des points des 
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Figure 8.3 - Construction d^une base projective de V^ . 



bases project ives dans les images de reference se fait sous certaines contraintes (contrainte 
epipolaire, colinearite), il n'en existe a priori aucune pour le choix des points concernant la 
base projective du plan virtuel. II est done important de noter que le transfert sera realise 
a une homographie planaire inconnue pres. 

Une fois la base etablie, il est alors possible d'exprimer les projections dans leurs 
coordonnees projectives. La methode de transfert est illustree par la figure 8.4. B est la 
base projective, elle est contenue dans le plan retinien virtuel et ses projections dans les 
images de reference sont 61 et 62- Les points pi et p2 du plan virtuel ont pour projections 
respectives dans les deux images de reference les mises en correspondances mi et 7712- Leurs 
positions sont facilement exprimees en utilisant la conservation du birapport (cf. annexe 
E). Notons aussi que Tepipole 631 (resp. 632) a les memes coordonnees projectives que 613 
(resp. 623). Les transformations projectives conservant la colinearite, la position du point 
7713 recherche est done donnee par Tintersection des droites (631,^1) (trace de (Ci,mi)) et 
(632,^2) (trace de (C2,m2)). 

Le principal avantage de cette solution est qu'il suffit de placer les quatre points 
definissant la camera virtuelle et de connaitre la geometrie epipolaire F12 entre les images 
de reference, contrairement aux autres methodes qui requierent la donnee de correspon- 
dances dans les trois images. Malheureusement, elle ne fonctionne pas si les centres optiques 
sont alignes ou encore pour les points contenus dans le plan trifocal, et comme les autres 
approches directes, produit egalement des "trous" dans Timage synthetisee. 

La methode est illustree a Taide des images de la figure 8.5. Les deux images qui ont 
servi de reference sont la premiere et la derniere de la figure. Ces deux images synthetiques 
sont issues d'une scene 3D contenant un cube en fil de fer dans lequel une centaine de 
points aleatoires ont ete generes. Les appariements entre les deux images de reference sont 
connus avec exactitude, la calibration des deux cameras etant disponible. Bien qu'elle soit 
connue, la matrice fondamentale a ete estimee a partir de ces appariements a Taide d'une 
methode robuste de type LMedS. Les quatre points permettant de definir la position de la 
camera virtuelle ont pu etre fixes de fagon realiste, le systeme etant calibre. Nous avons ici 
simule une interpolation du mouvement entre les deux cameras de reference, en s'assurant 
que la configuration trinoculaire obtenue ne soit pas degeneree. Six vues intermediaires 
transferees sont presentees. EUes ont ete comparees aux veritables vues qui auraient ete 
calculees si la scene avait ete projetee sur le plan retinien de la camera virtuelle. Nous 
n'avons observe aucune difierence. 



Variante de Laveau 
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Figure 8.4 - Une methode de transfert projectif directe. 
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Figure 8.5 - Un exemple de trans fert projectif direct. 



II existe une variante de cette approche : dans [Laveau et Faugeras, 1994], Laveau 
cherche a estimer les projections de 7713 dans les deux images de reference, qui doivent alors 
avoir les memes coordonnees projectives {qi et q2 sur la figure 8.4). Pour cela, il estime 
rhomographie H12 entre les deux images de reference a partir des bases projectives. La 
position de la projection dans la premiere image est alors donnee par I'intersection des 
droites (ei3, mi) et H2i{e23^m2)^ et celle de la deuxieme image par I'intersection des droites 
(623,^2) et i7i2(ei3,ml). 



8.2.5.2 Lancer de rayon (methode indirecte) 

Avec cette methode, Laveau [Laveau et Faugeras, 1994] a souhaite pallier Tinconvenient 
que Ton retrouve dans toutes les methodes presentees jusqu'a ici, a savoir la generation de 
"trous" dans Timage virtuelle. L'idee est de parcourir Timage virtuelle, c'est-a-dire de fixer 
le point 7713, puis de mettre en oeuvre une solution pour retrouver les positions de mi et de 
7712 dans les deux images de reference. C'est une approche dite indirecte qui s'apparente au 
fameux lancer de rayon utilise en synthese d'images. Comme pour la methode projective 
directe, elle necessite seulement la donnee des mises en correspondances bien sur et celle 
de la base projective. La figure 8.6 illustre la technique employee. Pour chaque pixel 7773 
du plan virtuel, il s'agit de : 



1. Determiner ses coordonnees projectives (fci, ^2) dans la base projective B ; 

2. Positionner pi et p2^ ses projections dans les deux images de reference. EUes doivent 
avoir les memes coordonnees projectives dans les bases projectives associees &i et &2- 
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Remarquons que (ei3,pi) (resp. (623,^2)) est la droite epipolaire conjuguee de 7713 
dans la premiere (resp. seconde) image ; 

3. Determiner mi comme etant Fintersection de (ei3,pi) avec la carte des disparites 
de (623,^2)7 et 1712 comme Tintersection de (623,^2) avec la carte des disparites de 
(ei3,pi). Ces cartes sont representees en bleu sur la figure. 



Pl=(ki,k2)T 




'2= (K^ir 



Figure 8.6 - Une methode de transfert projectif indirecte. 

Cette solution permet de renseigner chaque pixel de Timage virtuelle. EUe ne regie 
cependant pas le probleme des centres optiques alignes. Un autre inconvenient est que la 
carte des disparites n'etant pas obligatoirement une droite, plusieurs solutions peuvent 
etre trouvees dans chaque image de reference. Laveau apporte une solution pour eliminer 
ces ambiguites en travaillant avec un plus grand nombre de cameras de reference et en 
utilisant des notions de geometric projective orientee [Laveau, 1996]. Ces contraintes 
supplementaires lui permettent de trouver la solution qui convient le mieux, c'est-a-dire 
celle qui est la plus proche du plan virtuel sur le rayon (C3M). 



Variante utilisant les trilinearites 

Si les trilinearites sont disponibles, alors en fixant la donnee m^ dans le systeme 
d'equations 7.28, on obtient deux equations independantes, qui indiquent que les coor- 
donnees de 7712 sont des fonctions lineaires des coordonnees de mi . II suffit alors de trouver 
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dans les images de reference les points verifiant a la fois ces contraintes trilineaires et 
les contraintes de disparite. Parmi les points trouves, Laveau preconise I'utilisation de la 
geometrie projective orientee pour extraire I'appariement correspondant au point tridi- 
mensionnel visible. 



8.2.6 Mosaique d'images 

Le principe de la construction de mosaiques a partir d'images de reference est un 
domaine tres actif en Vision par Ordinateur. II s'agit de "recoUer" toutes les images de 
reference dans un meme repere, de maniere a reconstituer une seule vue de la scene. Cette 
technique est consideree comme faisant partie des methodes de transfert d'images, puis- 
qu'elle consiste a transferer plusieurs images de reference vers une autre image definie 
dans un nouveau repere. Les techniques de "mosai'quage" imposent cependant certaines 
contraintes sur la scene : celle-ci doit etre plane ou bien doit contenir des objets suffisam- 
ment eloignes des cameras de reference pour etre supposes plans, ou encore le mouvement 
entre les cameras doit etre limite a une rotation du centre optique. 

Principe 

Nous nous limitons ici a I'etude de deux images de reference pour simplifier les expli- 
cations, la methode etant identique pour N images. Le calcul de mosaiques est base sur 
I'estimation d'une homographie entre les deux images de reference. Nous avons vu a la 
section 7.3.3 du chapitre 7 qu'il existe une homographie reliant les projections des points 
de la scene lorsque celle-ci est plane (ou tres eloignee des cameras). II est facile de montrer 
qu'il existe le meme type de relation lorsque le mouvement entre les deux cameras est li- 
mite a une rotation autour du centre optique [Mohr, 1993]. Rappelons qu'au moins quatre 
points apparies entre les deux images sont necessaires pour estimer cette homographie. II 
est ensuite possible d'utiliser cette relation homographique pour reprojeter sur I'une des 
images les pixels de I'autre image. Faire la reprojection dans un repere quelconque s'avere 
plus delicat lorsqu'on a aucune information sur la geometrie des cameras de reference. II 
faudrait en effet fixer quatre points de facon totalement arbitraire, ce qui ne garantirait 
pas la coherence geometrique de I'image ainsi calculee. 

La technique que nous venons de decrire est notamment utilisee dans le logiciel Quick- 
Time VR® d'Apple [Chen, 1995] et a meme fait I'objet d'un brevet. Ici on dispose d'une 
connaissance approximative des parametres optiques des cameras, qui sont contraintes de 
se deplacer selon un mouvement panoramique. Plus recemment, la societe Realviz^ a com- 
mercialise le logiciel Stitcher®. Ici seule la donnee approximative de la focale est requise 
et le processus d'appariement est automatise. 



8.3 Resultats 

Nous presentons dans cette section divers resultats de reconstruction euclidienne et 
de transfert d'images, illustrant certaines des methodes presentees depuis le debut de ce 



^http ://www.realviz.com. 
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chapitre. Les images utilisees sont trois vues en couleur de la Maison Carree^ representees 
a la figure 8.7. 
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Figure 8.7 - Vues de la Maison Carree utilisees. 

Ces images ont ete prises a I'aide d'un appareil-photo Canon Fl et numerisees par 
Kodak. Les seules informations mises a notre disposition sont la donnee constructeur de 
la focale de Fobjectif (50mm). Les parametres intrinseques sont calcules a partir de cette 
donnee ; quant aux parametres extrinseques, ils sont inconnus. 

Nous presentons a la section 8.3.1 des resultats de reconstruction euclidienne de points 
d'interet detectes dans ces images et a la section 8.3.2 des resultats de transfert direct a 
partir de correspondances eparses. 

Les points d'interet utilises dans les deux approches sont les points de Harris Couleur 
presentes au chapitre 1, car ce sont eux qui presentent les meilleures mesures de localisa- 
tion euclidienne (cf. section 2.2.5 du chapitre 2). lis sont calcules en precision demi-pixel. 
L'etape de mise en correspondance est realisee a partir des invariants different iels couleur 
(cf. chapitre 4), selon le processus incremental (cf. chapitre 6). La ou les matrices fon- 
damentales sont estimees a I'aide d'une methode LMedS (cf. section 7.6. L3 du chapitre 
7). 



8.3.1 Reconstruction euclidienne 

La premiere etape de ce travail consiste a mettre en correspondance les points detectes 
entre les images (1) et (2) puis (2) et (3). Le processus de mise en correspondance 
incremental nous permet d'apparier efficacement plusieurs milliers de points pour chaque 
couple d'images mis en jeu. Le positionnement relatif des trois cameras est ensuite es- 
time a partir des parametres intrinseques et des matrices fondamentales, a I'aide d'une 
decomposition en valeurs singulieres des matrices essentielles (cf. section 7.6. L 5 du cha- 
pitre 7). Une fois les cameras fortement calibrees, deux reconstructions euclidiennes S12 
et 523 sont calculees par triangulation aux moindres carres (cf. section 8.L4) a partir 
des appariements respectifs. Ces deux ensembles doivent maintenant etre "fusionnes". La 
methode utilisee est presentee ci-apres. 



Regroupement des points 3D reconstruits 

Bien que la reconstruction effectuee soit euclidienne, les deux ensembles S12 et 82^ 
obtenus different d'un changement d'echelle et sont exprimes dans deux reperes relatifs 
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differents. II faut done estimer ce facteur d'echelle ainsi que la transformation qui lie les 
deux reperes, pour pouvoir fusionner les deux ensembles de points 3D. 

Ces parametres sont determines a partir des elements communs a S12 et a 523 (il 
sufEt de considerer les points de la deuxieme image qui ont des appariements dans la 
premiere et dans la troisieme). Le facteur d'echelle est calcule en considerant le rapport 
des distances inter-points dans chacun des deux sous-ensembles. Puis le changement de 
repere est estime en minimisant les distances entre les points 3D se correspondant dans 
ces memes ensembles. On applique ensuite le changement d'echelle, la translation et la 
rotation obtenus sur I'un des ensembles complets, de facon a rassembler les donnees. Avec 
cette methode, nous avons reussi a reunir approximativement 12500 points de la scene. 
Quelques vues de la reconstruction obtenue sont visibles a la figure 8.8. 
















Figure 8.8 - Reconstruction tridimensionnelle de la Maison Carree. 

Nous nous sommes "contentes" ici de reconstruire uniquement les points d'interet mis 
en correspondance. Notre but n'etait pas d'aboutir a un modele tridimensionnel complet 
(avec facettes texturees par exemple) mais uniquement de valider visuellement la coherence 
de la chaine de traitements qui fait I'originalite de cette these, depuis I'extraction des points 
dans les images en couleur jusqu'a I'estimation de la geometric epipolaire. 



Nous constatons que les resultats de reconstruction sont excellents, les fagades etant 
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parfaitement reconnaissables. L'algorithme incremental de mise en correspondance a per- 
mis d'apparier rapidement plus d'une dizaine de milliers de points, mais aussi tres preci- 
sement, grace aux contraintes geometriques employees et grace a la caracterisation par les 
invariants differentiels couleur. 



8.3.2 Transfer! projectif 

Nous avons implemente ici la methode de transfert direct presentee a la section 8.2.5.1. 
Quelques points ont ete mis en correspondance a la I'aide du processus incremental. A 
Tissue de ce traitement, nous avons obtenu un ensemble de points appariees ainsi qu'une 
triangulation des appariements dans chacune des images de reference. Ce sont ces triangles 
qui sont transferes sur le plan retinien de la camera virtuelle. Les pixels presents dans les 
triangles de Timage virtuelle sont ensuite calcules par interpolation a partir des couleurs 
des images de reference, par transformation affine ("texture mapping"). 

Le transfert vers une troisieme image necessite le positionnement de la camera virtuelle 
par rapport aux deux cameras de reference. Comme pour la reconstruction euclidienne, il 
est done egalement necessaire d'estimer le mouvement relatif entre les deux cameras de 
reference, selon la methode de decomposition en valeurs singulieres de la matrice essentielle. 
II est alors possible de specifier la position et I'orientation de la camera virtuelle dans le 
repere de ces deux cameras. 

Les images de reference utilisees ici pour realiser le transfert sont les vues (1) et (2) de 
la figures.?. Les triangulations impliquees sont visibles a la figure 8.9. Quelques vues des 
sequences engendrees sont presentees aux prochaines sections. 
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Figure 8.9 - Triangulations calculees dans les deux images de reference. 



8.3.2.1 Deplacement vers Pavant 



Pour cette premiere sequence, nous avons simule un deplacement vers I'avant de la 
premiere camera. Ce mouvement correspond a une translation selon I'axe des z du repere 
de cette camera. La sequence comporte 30 images, mais seulement 6 sont representees a 
la figure 8.10. 
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Figure 8.10 - Transfert de 6 images. Le mouvement est une translation vers Vavant a 
partir de la premiere camera. 
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8.3.2.2 Vue de la scene en plongee 



Dans cette sequence, la camera virtuelle est deplacee vers le haut et inclinee vers I'avant 
de fagon a visualiser le dessus de la scene. La sequence comporte egalement 30 images, 
nous en presentons 6 a la figure 8.11. 
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Figure 8.11 - Transfert de 6 images. Vue plongeante de la Maison Carree. 



Discussion 

Au vu des images extraites des deux sequences et presentees ici, quelques imperfections 
sont notables. En efi"et, la modelisation en triangles n'est pas exacte d'un point de vue 
theorique puisqu'elle suppose que les zones definies par les triangles correspondent a des 
parties planes de la scene, ce qui n'est pas toujours le cas. Ceci explique par exemple les 
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deformations obtenues pour I'arriere-plan des facades situees a gauche de la Maison Carree 
a la figure 8.11. Cette methode basee sur les triangles suppose egalement que la contrainte 
d'ordre est toujours verifiee. Ceci est bien evidemment faux pour cette scene, temoins en 
sont les fagades de Tarriere-plan entre les colonnes de la Maison Carree. Notre methode 
de plaquage de texture suppose quant a elle que la transformation affine permettant de 
texturer les triangles dans I'image virtuelle est une bonne approximation de Thomographie 
associee au plan du triangle, ce qui rarement le cas. 

Toutes ces approximations expliquent les petites deformations que Ton pent voir dans 
les images engendrees de ces series. Cependant, le rendu visuel reste bon et la simulation 
du deplacement de la camera virtuelle parfaitement credible malgre ces simplifications 
et malgre un deplacement consequent de la camera virtuelle par rapport aux cameras 
initiales. 

En resume, le transfert de deux images de reference vers une troisieme image aura 
necessite ici : 

1. La detection et la mise en correspondance d'un petit nombre de points dans les deux 
images ; 

2. La triangulation de ces points ; 

3. L'estimation de la matrice fondamentale permettant, avec les parametres intrinseques, 
de calculer le mouvement relatif entre les deux cameras ; 

4. Le positionnement de la camera virtuelle par rapport au repere des cameras initiales ; 

5. Le transfert vers la troisieme image des sommets des triangles contenus dans les 
images initiales ; 

6. Le plaquage de texture dans chacun des triangles generes. 



8.4 Conclusion 

Dans ce chapitre, nous avons passe en revue les difierentes approches permettant de 
synthetiser des vues intermediaires, a partir de vues existantes. II est tout d'abord possible 
de reconstruire la scene en trois dimensions, avant de la reprojeter sur le plan retinien de 
la camera virtuelle. Trois types de reconstruction sont envisageables selon les informations 
disponibles. La reconstruction projective necessite la donnee de la geometric epipolaire 
du systeme, c'est-a-dire d'un certain nombre de points mis en correspondance. Elle per- 
met d'obtenir une reconstruction a une homographie de Tespace pres, et ne conduit pas 
a un modele tridimensionnel realiste. Les reconstructions affines et euclidiennes, quant a 
elles, tiennent compte du parallelisme, des mesures d'angles et de longueurs de la scene. 
EUes sont cependant beaucoup plus delicates a obtenir. En efi'et, les methodes rencontrees 
necessitent ou bien la donnee manuelle d'informations (droites paralleles, segments de 
droite, etc) ; elles ne sont done pas automatiques et supposent que la scene contient ces 
informations de structure. Ou bien elles necessitent la mise en oeuvre de methodes d'es- 
timations relativement difficiles, comme celles utilisant les equations de Kruppa. Lorsque 
les parametres des cameras sont inconnus, il est done encore actuellement delicat d'arriver 
jusqu'a une reconstruction tridimensionnelle realiste. 
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Nous avons ensuite passe en revue les diverses solutions developpees ces dernieres 
annees, qui permettent de se passer de cette reconstruction. EUes consistent a generer 
I'image uniquement a partir des relations existant entre les cameras de reference et la 
camera virtuelle. Certaines de ces methodes utilisent les n-linearites, qui supposent au 
moins la connaissance de correspondances de points entre les images. D'autres exploitent 
certaines proprietes d'invariance bien connues en geometric projective. Ces approches four- 
nissent globalement de bons result at s, dans la mesure ou la camera virtuelle est correc- 
tement positionnee. Or tout le probleme reside dans le choix des points definissant le 
placement relatif de cette camera par rapport aux autres cameras. Nous avons en effet 
constate que lorsque les cameras ne sont pas calibrees, il n'existe pas de methode permet- 
tant de placer ces points de fagon a etre certain de calculer une image realiste, c'est-a-dire 
non projectivement deformee. II s'avere necessaire de mener une etude pour essayer de 
contraindre au maximum leurs positions. 

Dans la derniere section de ce chapitre, nous avons presente divers resultats de recons- 
truction tridimensionnelle et de transfert d'images obtenus a partir de plusieurs images. 
Nous avions seulement a notre disposition une estimation des parametres intrinseques des 
cameras. En ce qui concerne la reconstruction tridimensionnelle, un tres grand nombre de 
points ont pu etre mis en correspondance efficacement grace a I'algorithme d'appariement 
presente au chapitre 6, avant d'etre reconstruits. La precision de la reconstruction obte- 
nue valide tout la chaine de traitements. Nous avons egalement presente des resultats de 
transfert projectif basee sur une approche directe et mettant en jeu des correspondances 
couleur eparses. Les sequences d'images generees restent parfaitement credibles malgre la 
simplicite de la methode mise en oeuvre. 
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Cette these a ete consacree au developpement d'une methode d'appariement entre 
images capable de s'affranchir d'une grande partie des limitations inherentes aux methodes 
existantes. La premiere originalite de notre approche a reside dans le choix d'exploiter Fin- 
formation supplementaire disponible dans les images en couleur. Notre apport a egalement 
consiste a la mise en place d'un algorithme d'appariement robuste aux grands nombres de 
points. 

Une methode de mise en correspondance robuste 

Nous resumons ici les principaux points que nous avons abordes dans ce memoire ainsi 
que les contributions apportees. 

Les points d'interet couleur 

Notre methode d'appariement est basee sur I'utilisation de points d'interet. EUe per- 
met done de manipuler des families d'images tres generales, ceux-ci pouvant etre extraits 
a partir de n'importe quel type de scene. Nous avons presente deux nouveaux detecteurs 
dont la specificite est d'exploiter I'information couleur pour extraire les points d'interet. 
En outre, ces detecteurs permettent d'extraire des points en precision sub-pixel. Au sein du 
chapitre 2, il a alors ete demontre par de nombreuses experimentations que ces detecteurs 
sont plus stables que les detecteurs en niveau de gris. Plus precisement, ils ont ete evalues 
selon un critere de repetabilite sur plusieurs sequences differant des principales transfor- 
mations de I'image, et aussi selon deux criteres de localisation. Ces mesures ont egalement 
ete realisees sur le detecteur de Harris dans sa version precise, qui represente a I'heure 
actuelle le detecteur le plus stable en niveau de gris. Exception faite du cas particulier des 
changements affines de luminosite, les detecteurs couleur fournissent de meilleurs resultats 
que le detecteur de Harris precis, pour chacune des transformations de I'image appliquees. 
L'etude des changements affines de luminosite s'est averee delicate a realiser. En efiet, les 
plans des images couleur ont ete modifies synthetiquement selon une transformation afiine 
des niveaux de gris et les images en niveau de gris correspondantes ont ete calculees par 
moyenne de ces plans modifies. II en resulte des images qui ne respectent pas les memes 
conditions que celles en couleur. Nous sommes done plutot reserves quant aux resultats 
obtenus. 
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La comparaison entre les deux detecteurs couleur doit etre beaucoup plus nuancee. 
Nous sommes tout de meme arrives a la conclusion que le detecteur de Harris couleur 
possede une repetabilite et une localisation euclidienne superieures a celles obtenues pour 
le detecteur de coins couleur. Nous preconisons done son utilisation pour la mise en cor- 
respondance ainsi que pour la reconstruction tridimensionnelle. Au contraire, Fextracteur 
de coins possede une meilleure localisation projective, ce qui le destine par exemple a 
Tetalonnage de cameras. Soulignons enfin que ces deux detecteurs n'extraient pas les 
memes points, le detecteur de Harris couleur ne calcule en effet pas exclusivement des 
coins de Timage. 

Les invariants differentials couleur 

La methode de caracterisation que nous avons presentee au chapitre 4 utilise une 
caracterisation locale du signal. EUe etend a la couleur I'approche proposee par Schmid 
[Schmid, 1996] et est basee sur les invariants differentiels de Hilbert. Nous avons montre 
que I'apport de deux nouveaux invariants inter-canaux, conjugues aux invariants sur les 
trois plans couleur, permet de pallier un des principaux inconvenients qui faisait defaut a 
la caracterisation correspondante en niveau de gris, a savoir sa sensibilite au bruit. EUe 
reduit en effet a Tordre un le calcul des invariants differentiels, tout en rest ant aussi riche 
avec huit invariants. 

Cette caracterisation est invariante aux rotations de Timage. Les derivees etant cal- 
culees sur un support gaussien, elle peut etre integree dans un contexte multi-echelle qui 
lui permet d'etre robuste aux changements d'echelle. Elle est done invariante au groupe des 
similitudes, qui absorbe les variations dues a des changements de point de vue lors d'une 
projection perspective. Cette caracterisation est done robuste a de telles transformations. 

Invariance aux changements d'illumination 

La deuxieme etape de notre travail de caracterisation des points d'interet a ensuite 
consiste a traiter le probleme de la Constance des couleurs. Nous avons adopte comme 
modele d'illumination le modele de Finlayson enrichi d'une translation (caracterise par six 
parametres au total) et implemente localement. II s'avere etre le plus performant dans le 
cadre de la caracterisation locale d'images. Pour rendre les invariants differentiels invariant 
aux changements d'illumination, les approches traditionnelles consistent a les normaliser 
en considerant les rapports de certains d'entre eux. Cette solution n'est pas envisageable 
dans notre approche, d'une part parce que le vecteur d'invariants couleur qui en resulterait 
serait trop pauvre avec deux invariants seulement, et d'autre part parce que I'emploi de 
quotients de derivees ne ferait que renforcer la sensibilite au bruit de la caracterisation. 

Nous avons done opte pour un pre-traitement de I'image qui permet de conserver nos 
huit invariants couleur au travers du modele d'illumination a six parametres. II consiste en 
une normalisation locale de I'image qui permet d'eliminer les parametres du modele. Cette 
normalisation est robuste au bruit puisqu'elle travaille a I'ordre zero. Elle est implementee 
localement pour preserver les proprietes locales des pixels. Les resultats obtenus sur plu- 
sieurs series d'images montrent que cette approche est robuste aux changements d'illumina- 
tion internes. Elle a egalement ete testee sur des images ayant subi des changements d'illu- 
mination externes, lies au deplacement des sources lumineuses de la scene. Les resultats se 
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sont egalement averes satisfaisants. Une methode de normalisation face a ces changements 
externes a aussi ete presentee et comparee a notre approche locale, mais elle n'est pas 
exploitable avec les invariants differentiels couleur qui y perdraient en richesse. 

Robustesse aux grands ensembles de points 

A partir des points d'interet caracterises, nous avons mis en place au chapitre 6 une 
methode de mise en correspondance robuste aux grands ensembles de points. La metrique 
que nous avons utilisee pour la comparaison des invariants n'est pas la plus optimale, 
au regard de la distance de Mahalanobis qui integre un modele de bruit. Cependant elle 
se comporte bien avec notre caracterisation, dans la mesure ou celle-ci n'implique que 
les derivees de I'image d'ordre peu bruitees. Nous avons egalement developpe un algo- 
rithme de relaxation base sur des contraintes semi-locales de voisinage et des contraintes 
geometriques invariantes au groupe de similitudes. La methode de mise en correspon- 
dance ainsi developpee est invariante aux principales transformations de I'image incluant 
le changement de point de vue. 

Puis nous avons mis en place un algorithme incremental base sur la geometric epipolaire 
et sur une contrainte de semi-planarite locale utilisant la triangulation de Delaunay. Cette 
methode permet de reduire considerablement la complexite des methodes de mise en cor- 
respondance traditionnelles, mais aussi limiter les faux appariements. Les tests menes sur 
de grands ensembles de points ont montre que nous sommes capables d'obtenir des taux 
d'appariements corrects de I'ordre de 95%, pour des temps de calcul tres reduits. A Tissue 
de toute la chaine de traitement, nous avons a notre disposition la geometric epipolaire, 
qui a ete estimee de maniere robuste (LMedS) a partir des points apparies, ainsi qu'une 
triangulation de Delaunay. Ces donnees permettent alors d'envisager la reconstruction 
tridimensionnelle ou encore le transfert d'images. 

Perspectives 

Une premiere amelioration directe des travaux qui viennent d'etre presentes est I'in- 
tegration de la distance de Mahalanobis pour la comparaison des invariants, qui suppose 
d'abord I'estimation empirique de la matrice de covariance des composantes du vecteur 
d'invariants. La methode de mise en correspondance en sera encore amelioree. 

A plus long terme, d'autre ameliorations sont envisageables : 

Autres espaces couleur 

Les deux operateurs de detection mis en place pour la couleur ainsi que la caracterisation 
utilisant les invariants differentiels couleur sont bases sur I'espace des couleurs RVB. II se- 
rait peut-etre interessant de developper une methode de caracterisation dans d'autres 
espaces couleur et de la comparer a celle que nous avons presentee. L'etude pourra etre 
notamment realisee en fonction des cameras utilisees et de I'echantillonnage couleur realise 
selon les capteurs employes. 

En ce qui concerne notre methode caracterisation basee les invariants differentiels cou- 
leur, une etude pourrait etre menee sur leur utilisation jusqu'a I'ordre deux, en ayant pris 
soin au prealable de normaliser localement les images pour obtenir I'invariance aux chan- 
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gements d'illumination. Cette etude permettrait de verifier si les calculs supplementaires 
impliques apportent un gain significatif dans la caracterisation des points d'interet. 

Etude comparative des deux detecteurs couleur plus approfondie 

Les deux detecteurs mis en place dans la premiere partie ont ete compares par rapport 
aux principales transformations de I'image. Nous avons constate que leur utilisation doit 
etre fonction des applications a envisager. II s'avere cependant que le detecteur de Harris 
couleur extrait des points a I'endroit ou le signal possede un contenu informatif riche, ce 
qui n'implique pas obligatoirement que le point extrait corresponde a un coin. II est done 
possible que ce detecteur s'avere mieux adapte a des vues issues de scenes texturees. Au 
contraire, le detecteur de coins couleur pourrait se reveler plus efficace sur des scenes au 
fort contenu geometrique. Une etude reste a mener dans ce sens. 

Contraintes geometriques supplementaires pour Pappariement 

Le nombre de contraintes geometriques aidant a la mise en correspondance de points 
d'interet est tres limitee. Dans nos travaux, nous avons exploite la geometric epipolaire 
ainsi qu'une contrainte de semi-planarite. II pourrait etre interessant d'introduire egalement 
des primitives de plus haut niveau, comme des jonctions ou des segments. On procederait 
ainsi a une mise en correspondance structurelle [Alquier, 1998], qui permettrait de reduire 
encore plus I'espace de recherche des correspondants d'un point d'interet. 

Changement d'echelle 

Nous pensons que le processus de mise en correspondance incremental, base sur la 
geometric epipolaire et une triangulation de Delaunay, pourrait permettre d'ameliorer la 
mise en correspondance dans le contexte d'un changement d'echelle entre les deux images. 
Nous sommes actuellement en train de mettre en place une methode incrementale qui tient 
compte de cette transformation et qui exploite les invariants calcules dans un contexte 
multi-echelle. 

Transfert d'images 

Les resultats de transfert d'images presentes au chapitre 8 sont bases sur une approche 
projective directe utilisant une mise en correspondance eparse. Ces resultats sont assez 
satisfaisants malgre les approximations faites, mais sont fortement dependants de la struc- 
ture de la scene et en consequence de la triangulation mise en oeuvre. Pour mieux tenir 
compte de sa geometric, une premiere amelioration consisterait a utiliser une triangulation 
contrainte sur les contours presents dans les images. 

Comme I'a fait Laveau dans sa these [Laveau, 1996], il serait egalement interessant de 
mettre en place la methode de transfert indirect presentee a la section 8.2.5.2 du chapitre 
8. Celle-ci exploite la carte de disparite des images de reference. C'est la raison pour 
laquelle nous sommes actuellement en train de mettre en oeuvre une methode de mise en 
correspondance dense qui exploite la caracterisation basee sur les invariants difi'erentiels 
couleur et les contraintes geometriques de la mise en correspondance incrementale. Nous 
esperons arriver a une solution plus efiicace que les traditionnelles approches qui utilisent 
des mesures de correlation. 
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D 'autre part, lorsque la calibration des cameras est totalement inconnue, rinconvenient 
majeur des techniques de transfert projectif reside dans la determination des points per- 
mettant le positionnement de la camera virtuelle. Une etude reste a mener pour essayer de 
contraindre au maximum les points a fixer. Remarquons neanmoins que si le transfert est 
realise dans le but de faire de la compression video, alors Fimage a synthetiser est connue 
a Tavance, rendant ainsi aisee la determination de ces points. 
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Annexe A 



Notations utilisees 



I luminance d'une image en niveau de gris. 

{R, V,B} plans Rouge, Vert et Bleu d'une image couleur. 

Ix et ly derivees premieres en j: et en y de I'image /. 

Ixx7 Ixy et lyy derivees secondes en j: et en y de I'image /. 

VI gradient de I'image /. 

(T taille du filtre gaussien. 

u.v produit scalaire de u par v. 

u A V produit vectoriel de u par v. 

dist(mi,m2) distance euclidienne entre les points mi et m2. 

t matrice antisymetrique det — (t^, ty^ t^)^ telle que tx — t/\x pour 

tout vecteur x. 

( -tz ty \ 



t = 



tz -t, 
V -ty tx J 
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A matrice d'auto-correlation de Fimage, definie pour le deplacement 

(^1,^2) telle que : 

V I \l{x,y)- I{x,y)\ X \l{x - t^,y - t-^) - I{x -ti,y - ^2)] | 
A = , ^"'^ ^^ ^ ^ ^-' - (A.l) 



V E.,y [^(^' ^^ - ^(^' y'^] ^ X E.,y [^(^ -ti,y-t2)-I{x-H,y- t2)] ^ 



ou I{x^y) designe la moyenne des niveaux de gris I{x^y). 

F matrice fondamentale d'un systeme binoculaire (quelques fois Fij 

pour la matrice fondamentale du systeme (li^Ij)). 

E matrice essentielle d'un systeme binoculaire (quelques fois Eij 

pour la matrice essentielle du systeme {li^Ij)). 

C centre optique d'une camera (quelques fois Ci pour la ieme 

camera) . 

A matrice des parametres intrinseques. 

ey epipole genere par I'image Ij dans I'image /^. 

H homographie (quelques fois Hij pour Thomographie reliant les 

images li et Ij). 

P matrice de projection (quelques fois Pi pour la matrice de projec- 

tion associee a Fimage /^). 

M point de la scene tridimensionnelle. 

rrii ieme point de I'image. 



Annexe B 



Materiel photographique utilise 



Ce memoire est illustre par divers resultats de detection de contours et de coins, de 
mise en correspondance et de reconstruction tridimensionnelle. Ceux-ci ont ete calcules a 
partir de differentes series d'images, en niveau de gris comme en couleur. II est bon de 
noter que les images qui ont servi de reference proviennent de sources differentes. La table 
B.l ci-apres presente les caracteristiques des capteurs qui ont permis de les obtenir. 



Sequence 


Materiel 


Capteur 


Toys 


Sony DXC-750P + scanner Sony 


tri-CCD 


Lezard 


- 


tri-CCD 


Salle robotique 


- 


mono-CCD 24 bits 


Bureau 


Sony DFW-V500 8.5mm 


mono-CCD 16 bits 


Bonzai 


Sony DFW-V500 8.5mm 


mono-CCD 16 bits 


Maison Carree 


Canon Fl 50mm + scanner Nikon 


mono-CCD 24 bits 



Table B.l - Materiel photographique utilise selon Vimage. 

Les images en niveau de gris 

Toutes les images de la table B.l sont disponibles en couleur. Nos travaux de detection 
(cf. chapitres 1 et 2) ont necessite d'avoir, pour certaines d'entre elles, Timage equivalente 
en niveau de gris. Nous avons obtenu les images monochromatiques correspondantes en 
considerant la moyenne des trois plans couleur. Les vues de la Maison Carree n'ont pas 
necessite de correspondances en niveau de gris. 

II nous a parfois ete necessaire de bruiter quelques unes des images en niveau de gris 
et en couleur (cf. chapitre 2). Pour les images en niveau de gris, le bruit a ete superpose 
a rimage calculee par moyenne des plans couleur non bruites. En couleur, le bruit a ete 
superpose sur les trois plans couleur simultanement. 
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Annexe C 



Filtrage sub-pixel et segmentation 
contours en niveau de gris 



Cette annexe a pour but de presenter les notions essentielles de filtrage employees en 
traitement d'images et utilisees tout au long de ce memoire. Nous rappelons a la section 
C.l les principales methodes permettant de deriver une image, ainsi que le principe du 
lissage en precision sub-pixel, qui autorise un gain de precision consequent par rapport au 
methodes "classiques" . La section C.2 rappelle brievement le principe de la detection de 
contours dans une image en niveau de gris. 



C.l Filtrage, precision pixel et precision sub-pixel 

C.l.l Methodes lineaires pour la detection de contours 

Les methodes lineaires pour la detection de contours font partie des methodes de 
segmentation les plus utilisees en traitement d'images. 

Une image est representee par une fonction bi-dimensionnelle echantillonnee. Les con- 
tours des objets sont generalement localises au zones de transition d'intensite lumineuse 
de rimage (dans le cas d'images non texturees). II est done necessaire de deriver celle-ci 
afin d'expliciter les fortes variations d'intensite lumineuse. Les points de contours sont 
alors reperes par les maxima locaux du gradient de I'image dans la direction du gradient. 

Une image etant un signal echantillonne bruite, il est impossible d'efiectuer de simples 
difierences finies afin d'estimer ses derivees de maniere fiable. Generalement, les derivees 
des images sont estimees a I'aide de filtres de convolution. De nombreuses etudes en seg- 
mentation d'images ont montre qu'il etait seulement necessaire de determiner un filtre de 
lissage [Canny, 1983; Deriche, 1987; Castan et Shen, 1989]. Le filtre de derivation s'obtient 
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alors simplement en derivant le filtre de lissage, grace a la propriete suivante du produit 
de convolution : 

' 4(^,y) = ^{I{x,y) ^L{x,y)) ^ I{x,y) ^ ^L{x,y) 

(C.l) 

, ^yi^^y) = ^i^i^^y) *^(^7y)) ^^i^^y) ^^^^H^^y) 

ou I{x^y) represente I'image initiale, L{x^y) represente le filtre de lissage et Ix{x^y)^ 
Iy{x^y) representent respectivement les images derivees selon les axes x et y. 

Selon la modelisation de Canny [Canny, 1983], on recherche un filtre optimal selon 
trois criteres : rapport signal sur bruit, localisation et reponse unique a un contour unique. 
Canny approxime I'operateur ideal repondant a ces trois criteres, par la derivee premiere 
d'une gaussienne. Dans la bibliographic, on trouve essentiellement deux families de filtres, 
des filtres bases sur la gaussienne et ses derivees [Canny, 1983; Deriche et Giraudon, 1993], 
et des filtres bases sur le filtre exponentiel et ses derivees [Deriche, 1987; Castan et Shen, 
1989; Montesinos et Dattenny, 1997]. Nous utilisons plus specialement dans ce memoire le 
filtre gaussien qui presente la meilleure stabilite pour les derivees d'ordre superieur a un. 

C.1.2 Filtrage gaussien en precision pixel 

Les derivees de I'image peuvent etre approximees par convolution avec les derivees du 
filtre gaussien. Ce filtre, exprime par Fequation C.2, est controle par un parametre de 
lissage : I'ecart-type a de la gaussienne. Lorsque a est grand le lissage est important, a 
rinverse lorsque a est petit le lissage est faible. 

Ga{x) = Coe-^ (C.2) 

ou Co represente un coefficient de normalisation. 

Deux proprietes interessantes du filtre gaussien sont sa separabilite et son isotropic, 
c'est a dire que d'une part, le filtrage pent etre decompose selon les deux directions x 
et y de I'image et d'autre part que le filtrage realise est independant de I'orientation des 
structures de I'image consideree. 

L'expression du filtre gaussien pour un signal bi-dimensionnel est la suivante : 

2 2 2 

Ga{x,y) = Coe~^e~^ = Cqc'^ (C.3) 

avec r — \/x^ + y^, 

Une operation de filtrage bi-dimensionnel va done se reduire a deux operations succes- 
sives de filtrage mono-dimensionnel. 

I{x,y)^^^G^{x,y) = (/(^,y) *iz.,, Ga(^)) *ix,,, G^(y) (C.4) 

^^ *iD x-> *iD y ^^ *2D representent respectivement les convolutions ID selon les axes x 
et y, et *2d 1^ convolution 2D. 
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Cependant lorsque a est grand, raugmentation de la taille des noyaux de convolution 
rend couteuse Foperation de filtrage. Nous preferons alors une methode approchee basee sur 
une approximation recursive a I'ordre quatre de la gaussienne et de ses derivees [Deriche 
et Giraudon, 1993]. La gaussienne et ses derivees peuvent alors etre approximees par 
I'operateur suivant : 

n[x) — [aQ cos( — x) + [ai sin( — x))e ^ + (cq cos( — x) + [ci sin( — x))e ^ v^-^) 
a a o a 

ou les parametres des filtres sont determines aux moindres carres par la methode de 
Prony. 

C.l. 3 Les problemes d'echantillonnage, vers la precision sub-pixel 

II est montre dans [Montesinos et Dattenny, 1997] que les implantations traditionnelles 
des filtres de detection de contours sont incapables d'extraire toute I'information contenue 
dans une image (au sens de Shannon), et que ce probleme provient de Techantillonnage des 
filtres utilises. Afin de remedier a ce probleme, les auteurs definissent des filtres decales 
d'une quantite e (avec < e < 1). Nous donnons ici les expressions des filtres decales 
de lissage et de derivation jusqu'a I'ordre deux (pour certains traitements, il peut etre 
necessaire d'utiliser des derivees jusqu'a I'ordre trois, par exemple pour le calcul d'inva- 
riants difierentiels, les expressions donnees ici se generalisant aisement aux derivees d'ordre 
superieur). 

/e,o(n) = Ce,ore,o(^) 

/.,i W = C'; ir.,1 W + C.,i/.,o(n) (C.6) 

Pour les filtres gaussiens, les fonctions de base s'ecrivent : 

(n-e)2 

re,o(^) = e 2^2 



\—f\ —-^ J— 



re,i(n) = -^e-"l^ (C.7) 

I r,,2(n) = ^—^e^^^ - ^^2 — 



En deux dimensions, ces filtres bases sur la gaussienne et ses derivees sont separables 
mais non recursifs. Cependant pour des valeurs courantes du parametre de lissage a les 
noyaux de convolution (ID) sont de petite taille, ce qui assure une complexite algorith- 
mique faible. L'estimation precise des derivees des images se fait alors en combinant plu- 
sieurs filtres avec des decalages difierents, fournissant ainsi une information localisee entre 
les pixels. En precision demi-pixel, il est necessaire de combiner quatre filtres, avec les 
valeurs de (e^,e^) suivantes : (0,0), (^,0), (0, ^) et (^, ^). L'idee est illustree par la figure 
C.l. 

Coefficients de normalisation 

Un filtrage en precision sub-pixel combine plusieurs filtres de decalages difierents. Une 
attention toute particuliere doit done etre portee aux coefficients de normalisation afin 
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e e e < 

o <> o ( 

e (» e < 

o <> ^ ( 
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Demi-pixel X, pixel Y 



Demi-pixel X et Y 



Pixel X, pixel Y 

Figure C.l - Filtrage demi-pixel : localisation des reponses des differents detecteurs en 
fonction du decalage. 

d'obtenir des derivees correctes. Pour cela, les coefficients de normalisation des filtres sont 
calcules de maniere a obtenir des derivees exactes pour des fonctions polynomiales. Ces 
coefiicients (jusqu'a I'ordre deux) doivent done verifier les equations suivantes : 



+00 

E (n-e)/,,i(n) = -l 

i = — 00 
+ 00 

E (n-e)/,,2(n)=0 



i= — 00 
+ 00 

E ^2(n) = 



+00 / \ 2 



(C.8) 



C.2 Segmentation contours 

Les contours sont extraits par maximisation de la norme du gradient dans sa direction, 
le gradient et sa direction proviennent directement de Tetape de filtrage ou les derivees sont 
estimees par exemple en precision sub-pixel. Le calcul des contours necessite les operations 
suivantes : 



L Calcul de la norme du gradient : 



w|| = v^/| + /| 



2. Calcul de la direction du gradient par rapport a Taxe des x : 



9 — arctan ( y- 



(C.9) 



(CIO) 



3. Suppression des non maxima locaux de la norme du gradient dans sa direction ; 

4. Seuillage par hysteresis. 



Annexe D 

Resultats complementaires de 
segmentation couleur 



Cette annexe donne des resultats de segmentation contour couleur et de detection de 
points d'interet couleur, qui sont complementaires a ceux presentes au chapitre 1. 



D.l Contours couleur en precision sub-pixel 

D.l.l Operateur de Di-Zenzo 

Des contours calcules a partir de I'operateur de Di-Zenzo et en precision quart de 
pixel sont presentes aux figures D.l jusqu'a D.7. Pour toutes ces images, les derivees sont 
estimees a Taide de filtres gaussiens sub-pixel par convolution (<j = 1). Dans tons les cas, 
les contours obtenus sont obtenus par un seuillage par hysteresis (seuil bas=0.005, seuil 
haut=0.05). 



D.1.2 Operateur max 

Au quart de pixel de precision, le lecteur pent consulter les images des figures D.8 
jusqu'a D.14 obtenues a partir de I'operateur MAX. On pent constater des dedoublements 
(voire des triplements) de certains contours qui correspondent a de legers decalages sub- 
pixelliques entre les difierents plans de I'image couleur. 
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D.2 Points d'interet en precision sub-pixel 

En ce qui concerne la detection en precision sub-pixel, les derivees sont estimees a Faide 
de filtres gaussiens sub-pixel par convolution [a — 1), Les parametres de detection des 
coins sont : seuil=0.05, maximisation des coins dans une fenetre circulaire de diametre 15 
pixels. Les coins detectes sont presentes des figures D.15 jusqu'a D.19. D'autres exemples 
de detections a partir des deux operateurs couleur sont disponibles aux figures D.20 et 
D.2L 




Figure D.l - Detection de contours couleur en precision quart de pixel par la methode de 
Di-Zenzo : detail des ^'collines^\ 



D.2. Points d^nteret en precision sub-pixel 
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Figure D.2 - Detection de contours couleur en precision quart de pixel par la methode de 
Di-Zenzo : detail des ^'collines^\ 
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Figure D.3 - Detection de contours couleur en precision quart de pixel par la methode de 
Di-Zenzo : detail des ^'maisons^\ 



D.2. Points d^nteret en precision sub-pixel 
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Figure D.4 - Detection de contours couleur en precision quart de pixel par la methode de 
Di-Zenzo : detail des ^'maisons'\ 
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Figure D.5 - Detection de contours couleur en precision quart de pixel par la methode de 
Di-Zenzo : detail du ^'parasol". 



D.2. Points d'interet en precision sub-pixel 
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Figure D.6 - Detection de contours couleur en precision quart de pixel par la methode de 
Di-Zenzo : detail des ^'personnages^\ 
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Figure D.7 - Detection de contours couleur en precision quart de pixel par la methode de 
Di-Zenzo : detail des ^'animaux'\ 



D.2. Points d^nteret en precision sub-pixel 
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Figure D.8 - Detection de contours couleur en precision sub-pixel par la methode MAX 
detail des ''collines^\ 



256 



Annexe D. Resultats complementaires de segmentation couleur 




Figure D.9 - Detection de contours couleur en precision sub-pixel par la methode MAX 
detail des ^'collines^\ 



D.2. Points d^nteret en precision sub-pixel 
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Figure D.IO - Detection de contours couleur en precision sub-pixel par la methode MAX 
detail des ^'maisons'\ 
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Figure D.ll - Detection de contours couleur en precision sub-pixel par la methode MAX 
detail des ^'maisons^\ 



D.2. Points d^nteret en precision sub-pixel 
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Figure D.12 - Detection de contours couleur en precision sub-pixel par la methode MAX 
detail des ^'maisons^\ 
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Figure D.13 - Detection de contours couleur en precision sub-pixel par la methode MAX ; 
detail du ^'parasoV\ 



D.2. Points d^nteret en precision sub-pixel 
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Figure D.14 - Detection de contours couleur en precision sub-pixel par la methode MAX 
detail des ^'personnages^\ 
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Figure D.15 - Detection de coins couleur en precision quart de pixel (detail des ^^collines^^). 



D.2. Points d^nteret en precision sub-pixel 
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Figure D.16 - Detection de coins couleur en precision quart de pixel (detail des ^'maisons^^). 



264 



Annexe D. Resultats complementaires de segmentation couleur 




Figure D.17 - Detection de coins couleur en precision quart de pixel (detail des ^'maisons^^). 



D.2. Points d'interet en precision sub-pixel 
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Figure D.18 - Detection de coins couleur en precision quart de pixel (detail des ^'person- 
nages^^). 
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Figure D.19 - Detection de coins couleur en precision quart de pixel (detail des 
maux'^). 
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D.2. Points d^nteret en precision sub-pixel 
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Figure D.20 - Un exemple de points Harris couleur sur deux images : Vimage ^'Lezard^^ 
est caracterisee par beaucoup de texture (472 points detectes) alors que Vimage ''Salle 
robotique^^ presente un grand nombre de contours (493 points detectes). 




Figure D.21 - Un exemple de coins couleur sur les memes images qu^d la figure D.20. >^57 
coins sont detectes sur ''Salle robotique'^ et 438 sur "Lezard". 



268 



Annexe E 

Geometrie projective : proprietes 
et notations 



Dans cette annexe, nous rappelons brievement les notions et proprietes de base definies 
et utilisees en geometrie projective. Celles-ci sont necessaires a la bonne comprehension 
des travaux presentes dans ce memoire, notamment aux chapitres 2 et 6 ou nous mettons 
en place des criteres definis a partir de Thomographie du plan projectif ; et egalement au 
chapitre 8 ou nous presentons des methodes de transfert d'images basees sur Tinvariance 
du birapport. Pour plus de details, le lecteur peut par exemple se referer a [Coelho et al., 
1992; Gros et Quan, 1992; Mohr, 1993; Morin, 1993; Laveau, 1996; Zeller, 1996; Gros et al., 
1997a]. 



E.l Notion d'espace projectif 

Soit {xi^...^Xn-\-i) un point de TZ^^^. On definit I'espace projectif P^ comme I'espace 
quotient de TZ^^^ — {0, ...,0} par Tequivalence suivante : 

X = {xi, ..., xn^i) = y = (yi, ..., yn+i) 4^ 3A / / X = Ay (E.l) 

X et y representent le meme point de I'espace projectif. Les coordonnees (xi, ..., x^+i) 
definies a un facteur pres sont les coordonnees homogenes du point. L'espace V^ est appele 
plan projectif et I'espace V^ est appele droite projective. 

Prolongement canonique de V^ dans TZ^ 

Un point de V^ — ixi^ ..., j:^, 0} est identifie a un point de TZ^ par I'application suivante : 

{a;i,...,x„+i)^(^^,...,^^) (E.2) 
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E.2 Les transformations projectives 

On appelle trnasformation projective toute application lineaire des coordonnees ho- 
mogenes. Une transformation projective de V^ dans V^ s'exprime done sous la forme 
matricielle suivante : 

Y^ = AX^ (E.3) 

ou A est une matrice (m + 1) x (n + 1). 

Notons que A et A^ definissent la meme application projective. Comme elle est definie 
a un facteur multiplicatif pres, elle possede (m + 1) x (n + 1) — 1 degres de liberte. Toute 
transformation projective de V^ dans lui-meme est une homographie. 



E.3 Notion de base projective 

Une base projective de V^ est formee de n + 2 points tels qu'aucun sous-ensemble de 
n + 1 points n'appartient a un hyperplan. Dans le plan projectif, tout quadruplet de points 
non colineaires 3 a 3 definit une base projective. 

Considerons deux bases projectives Bi et B2 de V^. La donnee de ces deux bases permet 
de determiner une homographie de V^ dans lui-meme. En effet, I'homographie recherchee 
est de dimension (n + 1) x (n+1) done possede (n + 1)^ — 1 = n^ + 2n inconnues et 
les n + 2 points des deux bases (decrits par n coordonnees) permettent d'avoir n^ + 2n 
equations. Dans le plan projectif, la donnee de quatre paires de points definissant deux 
bases projectives permet de calculer I'homographie du plan. 

Exemple de la base projective canonique 

Le (n + 2)-uplet {(1,0, ...,0)^, (0, 1,0, ...,0)^, ...(0, ...,0, 1)^, (1, ..., 1)^} represente la 
base canonique de Tespace projectif V^. Cela revient a prendre n axes (directions), le 
point (0, ..., 0, 1) pour marquer Forigine et le point (1, ..., 1) pour marquer I'unite. On peut 
toujours se ramener a la base canonique par une homographie de dimension (n+1) x (n+1). 



E.4 Le birapport 

Etant donnes quatre points (^, B,C, D) d'une droite projective, le birapport de ces 
points, note [A^B^C^D] est defini comme suit : 



[A,B,C,D]^ = x= (E.4) 

^ ' ' ' ^ CB DA ^ ^ 

avec 

00 ^ a ^ 00 /_ ^x 

— = 1 — = — = 00 E.5 

00 00 a 

Le birapport ainsi defini est un invariant projectif. Pour toute transformation projective 
/, on a en efiet : 

[AB,C,D] = [f{A)J{B)J{C)J{D)] (E.6) 
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Ceci est un theoreme essentiel, c'est cette notion d'invariance qui permet de mettre 
en place les methodes de transfert projectif developpees au chapitre 8. L'invariance du 
birapport est illustree par la figure E.l pour la droite projective. 




Figure E.l - Conservation du birapport sur la droite projective. On a : [A^B^C^D] — 
[ai,6i,ci,di] = [a2, 62, €2,^2]. 

On definit de la meme fagon le birapport de faisceaux de droites. Ainsi dans le cas de 
la droite projective de la figure E.l, on a : 

[(0^),(05),(0C),(0Z?)] = [A,B,C,D] (E.7) 

Le birapport d'un faisceau de droites est independant du choix de la droite qui coupe 
ce faisceau. 



E.5 Les coordonnees projectives 

Soit un espace projectif V^ muni d'une base projective. Le concept de coordonnees 
projectives permet de localiser tout point de cet espace dans Tespace lui-meme. EUes sont 
definies a I'aide des birapports. 

Cas de la droite projective V^ 



^ B 

T^-^, P 



Soient trois points alignes A,BeiC definissant un repere projectif d'une droite {A, B). 
A tout point P de cette droite, on associe \p le birapport de ces points. Cette valeur 
determine de maniere unique la position de P sur la droite. \p est definie telle que : 

\p = [A,B,C,P] (E.8) 
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Cas du plan projectif V^ 

Soient quatre points [A^B^C^D) qui definissent la base projective du plan projectif. 
A partir de chacun de ces points, il est possible de definir un faisceau de droites et d'en 
calculer le birapport, comme Tillustre la figure E.2. 




Figure E.2 - Localisation du point P dans le plan projectif defini par la base projective 
{A,B,C,D). 

Deux birapports definissent deux droites dont Fintersection donne P, Les coordonnees 
projectives de P sont done determinees par la donnee de deux birapports {ki^k2). Par 
exemple : 

f h = [{ABUAC)MD)MP)] .pg^ 

\ k2 = [{BAUBC\{BD\{BP)] ^^-^^ 

En pratique, on considere la donnee de trois birapports. Cela permet de pallier les cas 
degeneres. Par exemple, on a fci = (X) lorsque le point P appartient a la droite {A^B), 
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